Le modèle IA que vous avez téléchargé était déjà compromis

Des centaines de modèles malveillants ont été découverts sur les plateformes publiques. Voici comment détecter un modèle compromis avant de l’intégrer.

Série “IA sous attaque” — Article 2/9 : L’attaque de la chaîne d’approvisionnement IA (AML.T0010)

Marc est responsable informatique dans une PME de logistique. Son équipe cherche un modèle IA pour automatiser la lecture des bons de livraison. Sur Hugging Face — la plus grande plateforme mondiale de modèles IA open source — il trouve exactement ce qu’il lui faut : un modèle spécialisé en reconnaissance de texte, bien noté, des milliers de téléchargements. Ils le téléchargent un vendredi après-midi, l’intègrent à leur système de gestion d’entrepôt. Le lundi matin, le modèle fonctionne parfaitement. Ce que Marc ne sait pas, c’est que depuis trois semaines, chaque bon de livraison traité a aussi envoyé une copie compressée des noms de clients et adresses vers un serveur externe.

Ce qui s’est vraiment passé

En 2023, des chercheurs en sécurité de l’entreprise JFrog ont découvert plus de 100 modèles malveillants sur Hugging Face, dont plusieurs capables d’exécuter du code arbitraire sur la machine hôte au moment du chargement. Certains étaient actifs depuis des mois, avec des milliers de téléchargements.

Le mécanisme est redoutablement simple : le format standard de sauvegarde des modèles PyTorch (fichiers .pkl) permet d’y glisser du code exécutable. Quand vous chargez le modèle, ce code s’exécute automatiquement — sans avertissement, sans vérification. C’est l’équivalent d’un fichier Excel qui lancerait un script dès l’ouverture.

En 2024, la même plateforme a révélé une faille dans son propre système d’hébergement permettant l’injection de modèles falsifiés dans des espaces de noms légitimes. Un attaquant pouvait usurper l’identité d’un éditeur reconnu.

Le risque ne se limite pas aux petits modèles inconnus. Des composants de modèles populaires ont été réutilisés dans des versions modifiées, bénéficiant de la réputation de l’original tout en embarquant du code malveillant.

Sources : JFrog Security Research (2023), Hugging Face Security Advisory (2024), MITRE ATLAS case AML.CS0012

Êtes-vous concerné ?

Oui, si vous répondez oui à l’une de ces questions :

Votre équipe technique a téléchargé un modèle IA depuis une plateforme publique (Hugging Face, GitHub, Civitai) sans vérification de sécurité formelle ?
Vous utilisez un outil IA développé par un prestataire externe qui lui-même utilise des composants open source ?
Vous intégrez des mises à jour automatiques de modèles IA sans audit intermédiaire ?

Pourquoi ça marche — l’analogie de la bibliothèque de code

Imaginez que vous engagez un développeur freelance pour construire votre site web. Il utilise des bibliothèques de code téléchargées sur Internet — une pratique courante et légitime. Sauf que l’une de ces bibliothèques, publiée par quelqu’un qui a usurpé le nom d’un auteur réputé, contient une porte dérobée. Votre développeur n’a rien fait de mal. Vous avez fait confiance à quelqu’un de confiance. Mais le problème est entré par la fenêtre pendant qu’on surveillait la porte.

L’attaque de la chaîne d’approvisionnement IA fonctionne exactement ainsi : vous ne téléchargez pas quelque chose d’inconnu, vous téléchargez quelque chose qui ressemble à ce que vous cherchiez. La compromission est en amont. Elle a eu lieu avant même votre décision d’adopter cet outil.

Les signaux d’alerte

1. Le modèle consomme plus de ressources que prévu

Un modèle IA légitime fait ce pour quoi il est conçu. S’il génère des connexions réseau inhabituelles, utilise le CPU ou la mémoire de façon anormale pendant des périodes sans activité, quelque chose tourne en arrière-plan.

2. Des fichiers temporaires inexpliqués apparaissent

Lors du chargement ou de l’utilisation du modèle, des fichiers sont créés dans des répertoires inhabituels, ou des processus enfants sont lancés de façon inattendue.

3. La source du modèle est difficile à tracer

Si votre équipe technique ne peut pas vous dire précisément qui a publié ce modèle, depuis quand, et si le compte éditeur est vérifié — c’est un signal d’alerte, pas une certitude, mais suffisant pour demander une vérification.

Ce que vous pouvez faire

Sans budget — Vérifiez l’origine avant de télécharger

Sur Hugging Face, vérifiez que l’organisation éditrice est vérifiée (badge jaune), que le modèle a un historique de versions cohérent, et que la page du modèle mentionne des informations de contact réelles. Un modèle de 10 000 téléchargements publié il y a 3 semaines par un compte vide mérite de la prudence.

Faible coût — Utilisez un scanner avant l’intégration

Des outils comme ModelScan (open source, gratuit) analysent les fichiers de modèles PyTorch et TensorFlow avant leur chargement et détectent les objets sérialisés suspects. Une heure de configuration peut éviter des semaines de forensic.

Si vous allez plus loin — Isolez les environnements d’exécution

Exécutez vos modèles IA dans des conteneurs isolés (Docker, sandbox) sans accès réseau sortant par défaut. Si le modèle n’a pas besoin d’Internet pour faire son travail, coupez l’accès. Ce qu’il ne peut pas envoyer, il ne peut pas exfiltrer.

L’essentiel en 3 lignes

Un modèle IA peut être compromis avant même d’arriver chez vous, via la plateforme ou le prestataire qui vous l’a fourni. Le risque est réel et documenté : des centaines de modèles malveillants ont été découverts sur les plateformes publiques. La première défense est de traiter un modèle téléchargé comme on traiterait un exécutable inconnu — avec vérification avant exécution.

Série complète : IA sous attaque — Les 9 menaces que toute PME doit connaître