Attaques Adversariales contre l'IA et le Machine Learning

Les systèmes d’intelligence artificielle (IA) et d’apprentissage automatique (Machine Learning, ML) transforment profondément les organisations. Mais cette adoption rapide s’accompagne de risques spécifiques souvent sous-estimés. Le NCSC britannique vient de publier un cadre de référence sur les attaques adversariales contre le Machine Learning (AML) — un document essentiel pour tout responsable sécurité, architecte IA ou décideur numérique.

Voici ce que vous devez retenir.

Qu’est-ce qu’une attaque adversariale en Machine Learning ?

Une attaque adversariale ML (AML) est une attaque intentionnelle qui exploite des vulnérabilités propres à l’architecture, à l’entraînement ou au fonctionnement d’un modèle ML. Elle se distingue des cyberattaques classiques : elle ne vise pas l’infrastructure réseau, mais le modèle lui-même — sa logique, ses données, ses paramètres.

Ces attaques peuvent survenir à n’importe quelle étape du cycle de vie d’un modèle : développement, entraînement, déploiement. Elles ciblent aussi bien les composants logiciels que matériels. Et le pire ? Une attaque réussie sur un seul composant peut se propager à l’ensemble d’un système interconnecté.

À retenir : Les modèles IA sont des cibles attractives précisément parce que la confiance qu’on leur accorde est de plus en plus grande.

Pourquoi la surface d’attaque des systèmes ML est-elle plus large ?

Contrairement aux logiciels traditionnels, les systèmes ML présentent des caractéristiques qui augmentent leur exposition :

Cycle de développement rapide avec des tests de sécurité souvent insuffisants
Architecture complexe difficile à auditer (réseaux de neurones, transformers, etc.)
Dépendance aux composants open-source et aux modèles pré-entraînés tiers
Grande taille des modèles rendant l’inspection manuelle quasi impossible
Accès API large offrant une surface d’interaction exploitable à distance

Ces caractéristiques créent des opportunités inédites pour des acteurs malveillants, qu’ils soient opportunistes ou sophistiqués.

Les 8 objectifs d’un attaquant ciblant un système IA

Avant de comprendre les techniques, il faut saisir ce que cherche un attaquant. Le NCSC identifie 8 objectifs techniques :

Objectif	Description
Reconnaissance	Cartographier le modèle : architecture, données, sécurité
Dégradation	Réduire la précision ou la disponibilité du modèle
Gaspillage de ressources	Saturer le calcul pour épuiser les capacités
Attribution des sorties	Identifier quand et comment le modèle est utilisé
Comportements cachés	Insérer une fonctionnalité malveillante dormante
Évasion de détection	Passer inaperçu face aux systèmes de classification
Extraction de données	Récupérer des données d’entraînement confidentielles
Obtenir un accès	Utiliser le modèle comme vecteur d’intrusion système

Les 7 classes d’attaques AML à connaître

Le NCSC structure les attaques AML en 7 grandes classes. Chacune cible une étape ou un composant différent du système ML.

1. Caractérisation du modèle

Objectif de l’attaquant : comprendre le modèle sans y avoir accès direct.

L’attaquant interroge le modèle via son API publique pour en déduire la structure interne, les données d’entraînement utilisées, ou les failles exploitables. Il peut construire un modèle substitut (surrogate model) — une copie approximative du modèle cible — pour développer des attaques sans risquer d’être détecté.

Risque principal : cette étape de reconnaissance conditionne toutes les attaques suivantes. La protéger, c’est protéger l’ensemble de la chaîne.

2. Inversion du modèle

Objectif de l’attaquant : extraire des informations confidentielles à partir des sorties du modèle.

En analysant les réponses du modèle, un attaquant peut :

Reconstruire des données d’entraînement (potentiellement des données personnelles)
Inférer l’appartenance d’un individu au dataset d’entraînement
Inverser des embeddings pour retrouver les textes ou images originaux

Cette attaque est particulièrement préoccupante pour les entreprises traitant des données sensibles (santé, finance, RH).

3. Empoisonnement des données d’entraînement

Objectif de l’attaquant : corrompre le modèle avant même qu’il soit entraîné.

L’attaquant insère des données malveillantes dans le dataset d’entraînement. Les effets peuvent être :

Dégradation globale des performances
Biais ciblé sur une classe ou une décision spécifique
Backdoor : un comportement anormal déclenché uniquement par un signal précis

Ce type d’attaque est particulièrement dangereux dans les pipelines qui utilisent des données publiques ou des modèles open-source sans vérification approfondie.

4. Entraînement malveillant du modèle

Objectif de l’attaquant : altérer le processus d’entraînement plutôt que les données.

Distincte de l’empoisonnement des données, cette attaque cible les hyperparamètres, les algorithmes d’apprentissage ou les fonctions d’activation. Un attaquant ayant accès au pipeline d’entraînement peut :

Modifier les époques pour dégrader l’apprentissage
Altérer la compression du modèle (quantisation)
Introduire des fonctionnalités cachées directement dans l’architecture

Cas concret : un ajustement fin malveillant (fine-tuning) peut compromettre les garde-fous de sécurité d’un LLM aligné.

5. Manipulation des entrées du modèle

Objectif de l’attaquant : provoquer des sorties incorrectes ou non autorisées via des entrées craftées.

C’est l’une des attaques les plus actives aujourd’hui, notamment contre les grands modèles de langage (LLMs). Elle prend plusieurs formes :

Perturbations adversariales : modifications imperceptibles à l’œil humain qui trompent le modèle
Injection directe de prompt : instructions malveillantes insérées directement dans l’invite
Injection indirecte de prompt : instructions cachées dans des documents ou pages web consultés par le modèle
Injection multimodale : attaques réparties sur plusieurs modalités (texte + image)

Dans les systèmes IA agentiques (agents autonomes capables d’appeler des outils et d’autres modèles), cette surface d’attaque s’étend de façon exponentielle.

6. Manipulation des artefacts du modèle

Objectif de l’attaquant : modifier le modèle après son entraînement.

Une fois déployé, un modèle peut être altéré directement : modification des poids, de l’architecture, des couches, ou même de fichiers associés comme le tokenizer. Ces modifications peuvent :

Dégrader les performances globalement ou sur des cas ciblés
Introduire des biais ou des backdoors indétectables
Dissimuler du code malveillant dans les bits de poids faible des paramètres

Risque chaîne d’approvisionnement : cette attaque est particulièrement redoutable lorsque l’origine d’un modèle n’est pas entièrement vérifiée (modèles téléchargés depuis des dépôts publics).

7. Attaques matérielles contre le modèle

Objectif de l’attaquant : exploiter le matériel physique ou virtualisé hébergeant le modèle.

Moins connues mais réelles, ces attaques ciblent le GPU, la RAM ou l’environnement d’exécution (cloud, Kubernetes). Elles peuvent permettre :

Des attaques par canal auxiliaire (side-channel) pour inférer la structure interne du modèle
Des injections de fautes matérielles pour perturber les inférences
Des attaques de type Rowhammer sur GPU pour altérer les prédictions

Comment ces attaques se combinent-elles ?

Un attaquant sophistiqué ne choisit pas une seule classe : il les enchaîne. Par exemple :

Caractérisation → comprendre le modèle via des requêtes API
Inversion → identifier les frontières de décision
Manipulation d’entrées → exploiter les failles découvertes pour éluder la classification

Ce type d’attaque en chaîne est caractéristique des acteurs étatiques ou des groupes cybercriminels organisés.

Que faire pour protéger vos systèmes ML ?

Le NCSC souligne que les contrôles de cybersécurité classiques restent indispensables mais ne suffisent pas. La sécurité des systèmes ML nécessite des mesures complémentaires spécifiques :

Sécuriser la chaîne d’approvisionnement : vérifier l’origine et l’intégrité de tout modèle ou dataset tiers
Mettre en œuvre une modélisation des menaces dès la conception du système ML
Surveiller les comportements du modèle en production pour détecter les dérives anormales
Limiter l’exposition de l’API pour réduire la surface de reconnaissance
Appliquer le principe du moindre privilège aux systèmes agentiques
Tester régulièrement avec des techniques de red-teaming spécifiques au ML

Ressources recommandées

Pour aller plus loin dans la sécurisation de vos systèmes IA :

NCSC — Principes de sécurité pour le Machine Learning
NIST — Taxonomie AML (AI 100-2)
MITRE ATLAS — Framework de tactiques et techniques adversariales contre les systèmes ML
DSIT (Royaume-Uni) — Code de pratique pour la cybersécurité de l’IA

Conclusion

Les attaques adversariales contre le Machine Learning ne sont plus théoriques : elles sont actives, documentées et en croissance. Avec la prolifération des LLMs, des systèmes agentiques et des pipelines d’IA en production, la sécurité des modèles devient un enjeu critique de souveraineté numérique.

Comprendre ces 7 classes d’attaques, c’est poser les bases d’une défense cohérente. La prochaine étape : intégrer cette grille de lecture dans votre stratégie de gestion des risques IA dès aujourd’hui.

Attaques Adversariales contre l’IA et le Machine Learning

Qu’est-ce qu’une attaque adversariale en Machine Learning ?

Pourquoi la surface d’attaque des systèmes ML est-elle plus large ?

Les 8 objectifs d’un attaquant ciblant un système IA

Les 7 classes d’attaques AML à connaître

1. Caractérisation du modèle

2. Inversion du modèle

3. Empoisonnement des données d’entraînement

4. Entraînement malveillant du modèle

5. Manipulation des entrées du modèle

6. Manipulation des artefacts du modèle

7. Attaques matérielles contre le modèle

Comment ces attaques se combinent-elles ?

Que faire pour protéger vos systèmes ML ?

Ressources recommandées

Conclusion

By IA tools

Laisser un commentaire Annuler la réponse

Attaques Adversariales contre l’IA et le Machine Learning

Qu’est-ce qu’une attaque adversariale en Machine Learning ?

Pourquoi la surface d’attaque des systèmes ML est-elle plus large ?

Les 8 objectifs d’un attaquant ciblant un système IA

Les 7 classes d’attaques AML à connaître

1. Caractérisation du modèle

2. Inversion du modèle

3. Empoisonnement des données d’entraînement

4. Entraînement malveillant du modèle

5. Manipulation des entrées du modèle

6. Manipulation des artefacts du modèle

7. Attaques matérielles contre le modèle

Comment ces attaques se combinent-elles ?

Que faire pour protéger vos systèmes ML ?

Ressources recommandées

Conclusion

By IA tools

Related Post

Guide Complet Multi-AI Agent

Guide complet sur les LLM

Laisser un commentaire Annuler la réponse