Les instructions invisibles que seule votre IA peut lire

Du texte invisible dans un PDF, des métadonnées dans une image : votre IA peut recevoir des instructions que vous ne verrez jamais.

Série “IA sous attaque” — Article 9/9 : La prompt obfuscation (AML.T0068)

Le responsable marketing d’une agence de communication reçoit un brief client sous forme de document PDF. Il le colle dans son assistant IA pour générer un premier plan de campagne. L’assistant produit un plan complet — mais il propose systématiquement des éléments créatifs qui ressemblent étrangement aux visuels d’un concurrent direct du client. En cherchant à comprendre pourquoi, le responsable retourne au PDF. En activant la sélection de texte sur certaines zones supposément vides, il découvre des blocs de texte blanc sur fond blanc : des instructions en langage naturel, invisibles visuellement, mais parfaitement lisibles pour l’IA. Quelqu’un avait inséré dans le document une instruction demandant à l’assistant d’orienter ses suggestions vers des références précises.

Ce qui s’est vraiment passé

La prompt obfuscation est une technique qui dissimule des instructions malveillantes dans du contenu IA en les rendant imperceptibles pour un être humain tout en restant pleinement lisibles pour un modèle de langage. C’est la version furtive de la prompt injection — et elle est documentée dans la nature depuis 2023.

Les vecteurs techniques sont multiples :

Texte blanc sur fond blanc : le plus simple, le plus répandu
Caractères Unicode homoglyphes : des caractères qui ressemblent visuellement à des lettres latines mais ont des valeurs différentes — l’humain lit “bonjour”, l’IA reçoit une instruction encodée
Encodage Base64 ou hexadécimal glissé dans un commentaire HTML ou une métadonnée de document
Stéganographie dans les images : des instructions encodées dans les pixels d’une image jointe, lisibles par les modèles multimodaux

En 2024, des chercheurs de Google DeepMind ont démontré une attaque fonctionnelle sur Gemini Ultra utilisant des instructions cachées dans les métadonnées EXIF d’une image envoyée dans une conversation. Le modèle exécutait les instructions sans que l’utilisateur puisse les voir.

Une variante particulièrement sophistiquée documentée par Riley Goodside (OpenAI) : des instructions glissées dans des pages web à l’intention des LLM qui naviguent sur Internet — invisibles pour les visiteurs humains, fonctionnelles pour les agents IA qui parcourent la même page.

Sources : Riley Goodside / OpenAI (2023), Google DeepMind Vision Safety Research (2024), MITRE ATLAS AML.T0068

Êtes-vous concerné ?

Oui, si vous répondez oui à l’une de ces questions :

Votre assistant IA traite des documents reçus de l’extérieur — clients, fournisseurs, inconnus — en les lisant directement ?
Votre assistant peut naviguer sur Internet ou analyser des images pour répondre à vos demandes ?
Vous utilisez un agent IA automatisé qui traite des contenus entrants sans supervision humaine avant exécution ?

Pourquoi ça marche — l’analogie de l’encre sympathique numérique

Pendant la Seconde Guerre mondiale, des messages secrets étaient écrits à l’encre sympathique — invisibles à l’œil nu, révélés seulement par la chaleur ou un réactif chimique. Le porteur du message ne savait pas ce qu’il transportait. Seul le destinataire équipé du bon outil pouvait le lire.

La prompt obfuscation fonctionne exactement de la même façon. Vous, vous voyez un document normal. Votre IA, elle, “voit” à la fois le contenu visible et les instructions cachées — parce qu’elle traite le texte brut sous-jacent, pas le rendu visuel. Elle ne distingue pas les deux couches : elle exécute tout ce qui ressemble à une instruction, dans l’ordre où elle le rencontre.

C’est une attaque qui exploite la différence fondamentale entre ce qu’un humain perçoit et ce qu’un modèle de langage traite.

Les signaux d’alerte

1. L’assistant produit des sorties inattendues sur un document qui semble normal

Si la réponse de l’assistant ne correspond pas au contenu visible du document que vous lui avez soumis — répond à des questions que vous n’avez pas posées, oriente vers des sujets hors contexte — vérifiez si le document source contient du texte caché.

2. Un document contient des zones sélectionnables mais vides visuellement

Dans un PDF ou un document Word, essayez de tout sélectionner (Ctrl+A). Si du texte se révèle là où vous ne voyez rien, il y a quelque chose de caché. Ce n’est pas forcément malveillant — les documents contiennent parfois des artefacts — mais sur un document externe, c’est à vérifier.

3. Votre agent IA automatisé prend des décisions difficiles à retracer

Pour les workflows entièrement automatisés (l’IA lit, décide et agit sans supervision), des actions inhabituelles — contacter un destinataire inattendu, modifier une valeur, créer un fichier — peuvent signaler qu’une instruction cachée a été exécutée quelque part dans le flux.

Ce que vous pouvez faire

Sans budget — Extrayez le texte brut avant de soumettre

Avant de coller un document externe dans votre assistant IA, extrayez son texte brut (copier-coller vers un éditeur de texte simple comme Notepad, ou utiliser pdftotext en ligne de commande). Vous verrez le contenu tel que l’IA le voit — y compris les éléments cachés. C’est une vérification manuelle, pas scalable pour de gros volumes, mais très efficace pour les documents importants.

Faible coût — Traitez les images et PDF externes avec prudence

Pour les agents IA qui traitent des images ou des PDF automatiquement, définissez une règle : les fichiers provenant d’expéditeurs externes doivent d’abord être convertis en texte brut ou re-générés dans un format propre avant d’être soumis au modèle. Cette étape de “neutralisation” élimine la plupart des vecteurs d’obfuscation connus.

Si vous allez plus loin — Validez les sorties des agents automatisés

Pour les workflows agents entièrement automatisés, n’autorisez pas d’actions irréversibles (envoi d’email, modification de données, appel API) sans validation humaine intermédiaire, au moins pour les contenus provenant de l’extérieur. Une étape de “checkpoint” humain limite drastiquement l’impact d’une exécution d’instruction injectée.

L’essentiel en 3 lignes

Des instructions invisibles pour un humain peuvent être parfaitement lisibles — et exécutées — par votre assistant IA. Cette technique est documentée et fonctionnelle sur les principaux modèles disponibles. Elle est d’autant plus dangereuse que vos agents sont autonomes : plus ils peuvent agir sans supervision, plus les conséquences d’une injection cachée sont importantes.

Série complète : IA sous attaque — Les 9 menaces que toute PME doit connaître