Votre base de connaissance IA a été contaminée par un inconnu

Votre base de connaissance IA peut être contaminée par un document malveillant. Le RAG Poisoning compromet silencieusement vos réponses.

Série “IA sous attaque” — Article 4/9 : Le RAG poisoning (AML.T0070)

L’équipe commerciale de cette PME spécialisée en équipements médicaux a déployé, il y a six mois, un assistant IA interne. Il répond aux questions des commerciaux sur les produits, les prix, les réglementations. L’assistant puise ses réponses dans une base documentaire alimentée automatiquement : notices techniques, fiches produits, mises à jour réglementaires. Un commercial demande ce matin : “Quelles sont les certifications CE requises pour notre nouveau dispositif ?” L’assistant répond avec confiance. La réponse est fausse — et différente de la réponse correcte donnée il y a trois semaines. Personne n’a modifié les règles. Quelqu’un a modifié un document dans la base.

Ce qui s’est vraiment passé

Le RAG (Retrieval-Augmented Generation) est la technique qui permet à un assistant IA de répondre à partir de vos documents plutôt que de sa seule mémoire de modèle. C’est la technologie derrière la plupart des assistants “intelligents” d’entreprise aujourd’hui. Son talon d’Achille : si les documents source sont corrompus, les réponses le sont aussi.

En 2024, des chercheurs de l’université de Pennsylvanie ont démontré qu’un attaquant ayant accès à la base documentaire — même partiel — peut injecter des documents conçus pour orienter les réponses de l’assistant vers des informations fausses ou biaisées. L’effet est amplifié par un phénomène documenté : les LLM ont tendance à faire confiance aux sources récentes et répétées dans leur base, même si elles contredisent les sources originales.

La même année, Nvidia Research a publié une étude montrant que des documents poison de seulement quelques centaines de mots suffisent à modifier les réponses d’un système RAG dans 60 % des cas, avec un taux de détection quasi nul par les modèles standard.

Un vecteur d’attaque concret : un collaborateur malveillant ou un prestataire avec accès à votre drive partagé modifie discrètement un document de référence. L’IA ne vérifie pas la légitimité de la modification — elle lit, indexe, et répond.

Sources : University of Pennsylvania — “PoisonedRAG” (2024), Nvidia Research (2024), MITRE ATLAS AML.T0070

Êtes-vous concerné ?

Oui, si vous répondez oui à l’une de ces questions :

Votre assistant IA répond à partir d’une base de documents partagée, accessible à plusieurs personnes ou systèmes ?
La base documentaire est alimentée automatiquement (depuis un drive, une GED, un email, un flux RSS) sans validation humaine systématique ?
Votre assistant est utilisé pour des décisions importantes — devis, réglementation, procédures RH, prescriptions techniques ?

Pourquoi ça marche — l’analogie de l’encyclopédie sabotée

Imaginez une encyclopédie d’entreprise que tout le monde consulte. Un jour, quelqu’un modifie discrètement trois articles : il change quelques chiffres clés, une date de conformité, un nom de fournisseur. Personne ne le remarque parce que l’encyclopédie a toujours été fiable. Votre assistant IA, lui, n’a pas de mémoire : il relit l’encyclopédie à chaque question. Il ne sait pas que les articles ont changé. Il répond avec la même assurance qu’avant.

Le RAG poisoning exploite précisément la confiance que vous accordez à votre propre base documentaire. L’IA n’est pas stupide — elle fait exactement ce qu’on lui a demandé : répondre à partir des documents disponibles. Le problème est que ces documents ne sont plus les vôtres.

Les signaux d’alerte

1. L’assistant donne des réponses différentes sur des sujets stables

Si une question à laquelle l’assistant répondait de façon constante depuis des semaines donne soudain une réponse différente — sans que vous ayez mis à jour les règles ou la politique correspondante — vérifiez les documents sources récemment modifiés.

2. Les réponses citent ou s’appuient sur des documents que vous n’avez pas créés

Si l’assistant mentionne un “guide mis à jour” ou une “nouvelle directive” que personne dans l’équipe ne se souvient d’avoir produit, c’est un signal à investiguer immédiatement.

3. Une réponse vous semble trop orientée ou trop précise dans un sens particulier

Une réponse légitime sur un sujet complexe devrait refléter la nuance de vos documents. Si l’assistant donne des réponses étrangement tranchées, avec des formulations inhabituelles, la source mérite vérification.

Ce que vous pouvez faire

Sans budget — Activez le versioning sur votre base documentaire

Si vos documents sont dans un drive partagé ou une GED, activez l’historique des versions. Cela ne détecte pas les attaques, mais ça vous permet de voir qui a modifié quoi et quand — et de revenir à une version saine si une anomalie est détectée.

Faible coût — Séparez les sources de confiance des sources dynamiques

Distinguez dans votre base les documents “référentiels” (validés, contrôlés, stables) des documents “courants” (alimentés automatiquement). Si votre assistant peut configurer des niveaux de confiance par source, attribuez le poids le plus fort aux documents referentiels. Les flux automatiques méritent moins de confiance par défaut.

Si vous allez plus loin — Journalisez les accès à la base documentaire

Pour les usages sensibles, mettez en place un système de journalisation qui enregistre toute modification de la base documentaire : qui, quand, quel document. Couplé à des alertes sur les modifications hors horaires habituels, c’est la détection la plus efficace disponible aujourd’hui.

L’essentiel en 3 lignes

Un assistant IA qui répond à partir de vos documents est aussi fiable que vos documents. Si quelqu’un peut modifier ces documents — intentionnellement ou par accident — il peut modifier les réponses de votre IA. Contrôler l’intégrité de votre base documentaire, c’est contrôler l’intégrité de votre assistant.

Série complète : IA sous attaque — Les 9 menaces que toute PME doit connaître