On a empoisonné l'IA de cette PME avant même qu'elle s'en serve

Il suffit de corrompre 0,001 % des données d’entraînement d’un modèle pour modifier durablement ses comportements. Voici comment ça marche — et ce que vous pouvez faire.

Série “IA sous attaque” — Article 1/9 : Le data poisoning

Sophie dirige un cabinet de conseil en ressources humaines. En début d’année, elle intègre un outil IA pour analyser les CV et présélectionner les candidats. L’outil a été formé sur des milliers de profils du secteur, vendu clé en main par un éditeur sérieux. Pendant trois mois, tout se passe bien. Puis une cliente lui signale que tous les candidats recommandés pour des postes de direction sont des hommes, sans exception. Sophie vérifie. C’est vrai — à profil équivalent, les femmes sont systématiquement écartées. Le problème n’est pas dans le logiciel. Il est dans les données sur lesquelles l’IA a appris.

Ce qui s’est vraiment passé

Ce scénario n’est pas fictif dans son principe. Des chercheurs d’Anthropic ont démontré en 2025 qu’il suffit de corrompre 0,001 % des données d’entraînement d’un modèle médical pour augmenter ses erreurs de 5 %. En volume, cela représente quelques centaines de documents sur des millions — une quantité indétectable à l’œil nu.

Plus frappant encore : une étude publiée la même année montre que 250 documents malveillants suffisent à implanter une vulnérabilité dans n’importe quel modèle de langage, quelle que soit sa taille. Le modèle se comporte parfaitement dans 99 % des situations. Dans le 1 % restant — celui que l’attaquant a ciblé — il donne systématiquement une mauvaise réponse, prend une mauvaise décision, ou adopte un comportement biaisé.

Le coût pour mener ce type d’attaque ? Moins de 60 euros pour altérer 0,01 % d’un grand jeu de données public, selon les estimations de chercheurs en sécurité IA.

Des cas concrets ont été documentés : des dépôts de code sur GitHub délibérément empoisonnés pour influencer les modèles qui s’entraînent sur du code public, des modèles de génération d’images détournés pour reproduire des logos commerciaux sans qu’on le leur demande, des pipelines de données synthétiques où la corruption se propage de génération en génération comme un virus silencieux.

Sources : Anthropic Research (2025), AI Incident Database, MITRE ATLAS case studies

Êtes-vous concerné ?

Oui, si vous répondez oui à l’une de ces questions :

Vous utilisez un outil IA acheté ou téléchargé, sans savoir précisément sur quelles données il a été formé ?
Vous avez fait appel à un prestataire pour fine-tuner (adapter) un modèle sur vos données internes ?
Vous utilisez un modèle open source récupéré sur une plateforme publique comme Hugging Face ?

Pourquoi ça marche — l’analogie du livre de recettes

Imaginez que vous ouvrez un restaurant et que vous confiez à un chef la formation de votre cuisine. Ce chef a appris son métier dans une école réputée — mais quelqu’un avait glissé dans ses manuels de formation des fiches de recettes légèrement modifiées. Pas toutes. Juste celles concernant un plat en particulier. Votre chef prépare ce plat à sa façon, persuadé que c’est la bonne. Vous, vous lui faites confiance. Vos clients, eux, remarquent que quelque chose ne va pas.

C’est exactement ce que fait le data poisoning : corrompre la source d’apprentissage avant même que l’outil arrive chez vous. Une fois déployé, le modèle ne sait pas qu’il a appris quelque chose d’erroné. Il applique ce qu’il sait, avec toute la confiance d’un système bien entraîné.

Les signaux d’alerte

Ces comportements ne prouvent pas qu’un empoisonnement a eu lieu, mais ils doivent vous alerter :

1. Des biais systématiques sur un sujet précis

L’IA recommande toujours le même type de fournisseur, écarte toujours les mêmes profils, ou donne toujours la même réponse sur un sujet particulier — même quand les données d’entrée varient.

2. Des erreurs qui ne ressemblent pas à des erreurs aléatoires

Une IA fait des erreurs. C’est normal. Mais si ses erreurs suivent un schéma reproductible — toujours dans le même sens, toujours sur le même type de requête — c’est anormal.

3. Un comportement qui change après une mise à jour du modèle

Si l’éditeur pousse une mise à jour et que l’outil commence à se comporter différemment sur des cas que vous maîtrisez bien, testez avant de valider.

Ce que vous pouvez faire

Sans budget — Exigez la transparence sur les données

Avant d’adopter un outil IA, posez deux questions à votre fournisseur : “Sur quelles données ce modèle a-t-il été formé ?” et “Ces données ont-elles été vérifiées et auditées ?”. Un éditeur sérieux doit être capable de répondre. S’il ne peut pas — ou ne veut pas — c’est un signal d’alerte.

Faible coût — Testez avant de faire confiance

Avant de déployer un outil IA sur des décisions importantes (recrutement, crédit, diagnostic, recommandation commerciale), testez-le sur des cas dont vous connaissez la bonne réponse. Créez une vingtaine de scénarios de référence et vérifiez que l’outil les traite correctement. Ce n’est pas une garantie absolue, mais c’est un filet de sécurité accessible à n’importe quelle PME.

Si vous allez plus loin — Demandez un audit de provenance

Pour les usages sensibles (RH, finance, santé, juridique), demandez à votre prestataire ou à un cabinet spécialisé un audit de la chaîne de données : d’où viennent-elles, comment ont-elles été filtrées, y a-t-il eu une validation humaine ? Des référentiels comme le MITRE ATLAS documentent les vecteurs d’attaque connus — un prestataire sérieux les connaît.

L’essentiel en 3 lignes

Un outil IA peut être compromis avant même que vous l’utilisiez, via ses données d’entraînement. L’attaque est indétectable à l’usage courant — elle ne se révèle que dans des situations précises, choisies par l’attaquant. La première protection est la plus simple : savoir d’où vient ce que votre IA a appris.

Série complète : IA sous attaque — Les 8 menaces que toute PME doit connaître

On a empoisonné l’IA de cette PME avant même qu’elle s’en serve