Attaques Adversariales

Les systèmes d’intelligence artificielle (IA) et d’apprentissage automatique (Machine Learning, ML) transforment profondément les organisations. Mais cette adoption rapide s’accompagne de risques spécifiques souvent sous-estimés. Le NCSC britannique vient de publier un cadre de référence sur les attaques adversariales contre le Machine Learning (AML) — un document essentiel pour tout responsable sécurité, architecte IA ou décideur numérique.

Voici ce que vous devez retenir.

Qu’est-ce qu’une attaque adversariale en Machine Learning ?

Une attaque adversariale ML (AML) est une attaque intentionnelle qui exploite des vulnérabilités propres à l’architecture, à l’entraînement ou au fonctionnement d’un modèle ML. Elle se distingue des cyberattaques classiques : elle ne vise pas l’infrastructure réseau, mais le modèle lui-même — sa logique, ses données, ses paramètres.

Ces attaques peuvent survenir à n’importe quelle étape du cycle de vie d’un modèle : développement, entraînement, déploiement. Elles ciblent aussi bien les composants logiciels que matériels. Et le pire ? Une attaque réussie sur un seul composant peut se propager à l’ensemble d’un système interconnecté.

À retenir : Les modèles IA sont des cibles attractives précisément parce que la confiance qu’on leur accorde est de plus en plus grande.

Pourquoi la surface d’attaque des systèmes ML est-elle plus large ?

Contrairement aux logiciels traditionnels, les systèmes ML présentent des caractéristiques qui augmentent leur exposition :

  • Cycle de développement rapide avec des tests de sécurité souvent insuffisants
  • Architecture complexe difficile à auditer (réseaux de neurones, transformers, etc.)
  • Dépendance aux composants open-source et aux modèles pré-entraînés tiers
  • Grande taille des modèles rendant l’inspection manuelle quasi impossible
  • Accès API large offrant une surface d’interaction exploitable à distance

Ces caractéristiques créent des opportunités inédites pour des acteurs malveillants, qu’ils soient opportunistes ou sophistiqués.

Les 8 objectifs d’un attaquant ciblant un système IA

Avant de comprendre les techniques, il faut saisir ce que cherche un attaquant. Le NCSC identifie 8 objectifs techniques :

ObjectifDescription
ReconnaissanceCartographier le modèle : architecture, données, sécurité
DégradationRéduire la précision ou la disponibilité du modèle
Gaspillage de ressourcesSaturer le calcul pour épuiser les capacités
Attribution des sortiesIdentifier quand et comment le modèle est utilisé
Comportements cachésInsérer une fonctionnalité malveillante dormante
Évasion de détectionPasser inaperçu face aux systèmes de classification
Extraction de donnéesRécupérer des données d’entraînement confidentielles
Obtenir un accèsUtiliser le modèle comme vecteur d’intrusion système

Les 7 classes d’attaques AML à connaître

Le NCSC structure les attaques AML en 7 grandes classes. Chacune cible une étape ou un composant différent du système ML.

1. Caractérisation du modèle

Objectif de l’attaquant : comprendre le modèle sans y avoir accès direct.

L’attaquant interroge le modèle via son API publique pour en déduire la structure interne, les données d’entraînement utilisées, ou les failles exploitables. Il peut construire un modèle substitut (surrogate model) — une copie approximative du modèle cible — pour développer des attaques sans risquer d’être détecté.

Risque principal : cette étape de reconnaissance conditionne toutes les attaques suivantes. La protéger, c’est protéger l’ensemble de la chaîne.

2. Inversion du modèle

Objectif de l’attaquant : extraire des informations confidentielles à partir des sorties du modèle.

En analysant les réponses du modèle, un attaquant peut :

  • Reconstruire des données d’entraînement (potentiellement des données personnelles)
  • Inférer l’appartenance d’un individu au dataset d’entraînement
  • Inverser des embeddings pour retrouver les textes ou images originaux

Cette attaque est particulièrement préoccupante pour les entreprises traitant des données sensibles (santé, finance, RH).

3. Empoisonnement des données d’entraînement

Objectif de l’attaquant : corrompre le modèle avant même qu’il soit entraîné.

L’attaquant insère des données malveillantes dans le dataset d’entraînement. Les effets peuvent être :

  • Dégradation globale des performances
  • Biais ciblé sur une classe ou une décision spécifique
  • Backdoor : un comportement anormal déclenché uniquement par un signal précis

Ce type d’attaque est particulièrement dangereux dans les pipelines qui utilisent des données publiques ou des modèles open-source sans vérification approfondie.

4. Entraînement malveillant du modèle

Objectif de l’attaquant : altérer le processus d’entraînement plutôt que les données.

Distincte de l’empoisonnement des données, cette attaque cible les hyperparamètres, les algorithmes d’apprentissage ou les fonctions d’activation. Un attaquant ayant accès au pipeline d’entraînement peut :

  • Modifier les époques pour dégrader l’apprentissage
  • Altérer la compression du modèle (quantisation)
  • Introduire des fonctionnalités cachées directement dans l’architecture

Cas concret : un ajustement fin malveillant (fine-tuning) peut compromettre les garde-fous de sécurité d’un LLM aligné.

5. Manipulation des entrées du modèle

Objectif de l’attaquant : provoquer des sorties incorrectes ou non autorisées via des entrées craftées.

C’est l’une des attaques les plus actives aujourd’hui, notamment contre les grands modèles de langage (LLMs). Elle prend plusieurs formes :

  • Perturbations adversariales : modifications imperceptibles à l’œil humain qui trompent le modèle
  • Injection directe de prompt : instructions malveillantes insérées directement dans l’invite
  • Injection indirecte de prompt : instructions cachées dans des documents ou pages web consultés par le modèle
  • Injection multimodale : attaques réparties sur plusieurs modalités (texte + image)

Dans les systèmes IA agentiques (agents autonomes capables d’appeler des outils et d’autres modèles), cette surface d’attaque s’étend de façon exponentielle.

6. Manipulation des artefacts du modèle

Objectif de l’attaquant : modifier le modèle après son entraînement.

Une fois déployé, un modèle peut être altéré directement : modification des poids, de l’architecture, des couches, ou même de fichiers associés comme le tokenizer. Ces modifications peuvent :

  • Dégrader les performances globalement ou sur des cas ciblés
  • Introduire des biais ou des backdoors indétectables
  • Dissimuler du code malveillant dans les bits de poids faible des paramètres

Risque chaîne d’approvisionnement : cette attaque est particulièrement redoutable lorsque l’origine d’un modèle n’est pas entièrement vérifiée (modèles téléchargés depuis des dépôts publics).

7. Attaques matérielles contre le modèle

Objectif de l’attaquant : exploiter le matériel physique ou virtualisé hébergeant le modèle.

Moins connues mais réelles, ces attaques ciblent le GPU, la RAM ou l’environnement d’exécution (cloud, Kubernetes). Elles peuvent permettre :

  • Des attaques par canal auxiliaire (side-channel) pour inférer la structure interne du modèle
  • Des injections de fautes matérielles pour perturber les inférences
  • Des attaques de type Rowhammer sur GPU pour altérer les prédictions

Comment ces attaques se combinent-elles ?

Un attaquant sophistiqué ne choisit pas une seule classe : il les enchaîne. Par exemple :

  1. Caractérisation → comprendre le modèle via des requêtes API
  2. Inversion → identifier les frontières de décision
  3. Manipulation d’entrées → exploiter les failles découvertes pour éluder la classification

Ce type d’attaque en chaîne est caractéristique des acteurs étatiques ou des groupes cybercriminels organisés.

Que faire pour protéger vos systèmes ML ?

Le NCSC souligne que les contrôles de cybersécurité classiques restent indispensables mais ne suffisent pas. La sécurité des systèmes ML nécessite des mesures complémentaires spécifiques :

  • Sécuriser la chaîne d’approvisionnement : vérifier l’origine et l’intégrité de tout modèle ou dataset tiers
  • Mettre en œuvre une modélisation des menaces dès la conception du système ML
  • Surveiller les comportements du modèle en production pour détecter les dérives anormales
  • Limiter l’exposition de l’API pour réduire la surface de reconnaissance
  • Appliquer le principe du moindre privilège aux systèmes agentiques
  • Tester régulièrement avec des techniques de red-teaming spécifiques au ML

Ressources recommandées

Pour aller plus loin dans la sécurisation de vos systèmes IA :

  • NCSCPrincipes de sécurité pour le Machine Learning
  • NIST — Taxonomie AML (AI 100-2)
  • MITRE ATLAS — Framework de tactiques et techniques adversariales contre les systèmes ML
  • DSIT (Royaume-Uni) — Code de pratique pour la cybersécurité de l’IA

Conclusion

Les attaques adversariales contre le Machine Learning ne sont plus théoriques : elles sont actives, documentées et en croissance. Avec la prolifération des LLMs, des systèmes agentiques et des pipelines d’IA en production, la sécurité des modèles devient un enjeu critique de souveraineté numérique.

Comprendre ces 7 classes d’attaques, c’est poser les bases d’une défense cohérente. La prochaine étape : intégrer cette grille de lecture dans votre stratégie de gestion des risques IA dès aujourd’hui.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *