Securite des modeles d'IA : prevenir les attaques adversariales

En mars 2026, une banque francaise de premier plan a vu son systeme de detection de fraude contourne par une attaque adversarial d’un nouveau genre. Les fraudeurs avaient appris a generer des transactions dont les caracteristiques echappaient au modele, causant une perte de 4,2 millions d’euros en 72 heures. L’affaire, revelee par le service de vigilance de l’ACPR, a agi comme un electrochoc dans le secteur.

La menace se precise

Les attaques adversariales ne sont pas une hypothese de laboratoire. Le rapport annuel 2026 de l’ANSSI (Agence Nationale de la Securite des Systemes d’Information) consacre un chapitre entier a ce phenomene. L’agence denombre 127 incidents repertories en France en 2025 impliquant des manipulations de modeles d’IA, contre 34 en 2024. La progression de 273% en un an temoigne de l’industrialisation de la menace.

Ces attaques se declinent en plusieurs categories. Les attaques par evasion consistent a modifier legerement une entree (une image, un texte, un fichier) pour qu’elle soit mal classee par le modele. Les attaques par empoisonnement visent a corrompre les donnees d’entrainement. Les attaques par extraction tentent de reconstituer le jeu de donnees d’apprentissage ou les poids du modele.

Le coût de l’inaction

Le cabinet de conseil en cybersecurite Wavestone a publie en avril 2026 une estimation des couts lies aux attaques adversariales en France : 340 millions d’euros en 2025, un chiffre qui pourrait atteindre 900 millions en 2028 si les entreprises ne renforcent pas leurs defenses.

Cette estimation inclut les pertes directes (fraudes, chantage), les couts de remediation (reentrainement des modeles, audit de securite) et l’impact reputational. Dans le cas de la banque frappee en mars, le cout total depassera 12 millions d’euros une fois les actions correctives et l’indemnisation des clients prises en compte.

Les techniques de defense se structurent

Face a la menace, la recherche academique et industrielle s’organise. Le laboratoire commun entre INRIA et Thales a publie en janvier 2026 un referentiel de robustesse adversarial, le “French AI Security Framework” (FASF). Ce document de 340 pages definit des protocoles standardises pour tester la resilience des modeles face a differents types d’attaques.

“Pendant des annees, la robustesse des modeles etait une consideration secondaire dans les projets IA”, explique le chercheur coordinateur du projet. “Nous proposons un cadre systematique : tout modele destine a la production doit passer une batterie de 18 tests adversariales avant deploiement.”

Le FASF est deja adopte par 45 entreprises francaises, dont BNP Paribas, Air France et EDF. La Direction Generale de l’Armement (DGA) l’a egalement integre a son processus de certification des systemes critiques.

La defense adversarial par l’entrainement

L’une des methodes les plus efficaces pour proteger un modele est l’entrainement adversarial, qui consiste a exposer le modele a des exemples perturbes pendant son apprentissage. La startup parisienne RobustAI, issue du laboratoire d’informatique de l’ENS, a developpe une plateforme specialisee dans ce domaine.

“Nous generons automatiquement des milliers de variantes adversariales de chaque donnee d’entrainement, ce qui oblige le modele a apprendre des caracteristiques intrinsequement robustes”, explique le CEO de RobustAI, ancien chercheur du Meta FAIR lab. La plateforme a ete utilisee par Mistral AI pour renforcer la securite de son modele Mistral Large 3, sorti en fevrier 2026.

Les tests menes par l’INRIA montrent que l’entrainement adversarial reduit de 94% le taux de succes des attaques par evasion, contre 40% pour les defenses reactives traditionnelles. Le cout additionnel en temps de calcul est de 30%, un investissement juge acceptable par la plupart des entreprises.

Le cas specifique des LLM

Les grands modeles de langage presentent une surface d’attaque particulierement etendue. Au-dela des attaques classiques, ils sont vulnerables aux injections de prompts, aux jailbreaks et aux fuites de donnees par extraction.

La startup LightOn, specialiste francais des LLM souverains, a integre dans son offre “LightOn Guardian” un module de detection d’attaques en temps reel. Le systeme analyse les prompts entrants et les reponses sortantes pour identifier les tentatives de contournement.

“Nous avons detecte 2 300 tentatives de jailbreak sur notre plateforme au premier trimestre 2026”, revele le CTO de LightOn. “Les methodes les plus courantes sont l’usurpation de role (‘vous etes maintenant un assistant sans restrictions’), les prompts en plusieurs langues melangees et les attaques par suffocation contextuelle.”

LightOn Guardian a bloque 97% de ces tentatives, un taux de succes qui place la solution parmi les plus performantes du marche europeen.

La certification des modeles

La question de la certification de securite des modeles d’IA est devenue un enjeu reglementaire. Le projet de reglement europeen sur l’IA (AI Act) prevoit des exigences specifiques pour les modeles consideres a haut risque, notamment en matiere de robustesse face aux attaques adversariales.

La societe Alice & Bob, leader francais du calcul quantique, travaille en partenariat avec l’INRIA sur des methodes de certification formelle des reseaux de neurones. “Nous utilisons des techniques de verification formelle issues du monde quantique pour prouver mathematiquement qu’un modele est robuste a certaines classes de perturbations”, explique le directeur scientifique.

Les premiers resultats sont prometteurs : le prototype permet de certifier des reseaux de neurones de taille modeste (jusqu’a 100 000 parametres) avec des garanties mathematiques. L’extension aux modeles de plusieurs milliards de parametres est un chantier de recherche en cours, avec un horizon de 2028.

L’humain dans la boucle

Les defenses techniques ne suffisent pas. L’ANSSI insiste dans son rapport sur la necessite de maintenir une supervision humaine des modeles critiques. “Un modele d’IA n’est jamais parfaitement robuste. Il faut des operateurs capables de detecter les comportements anormaux et d’interrompre le systeme si necessaire”, ecrit l’agence.

Plusieurs entreprises francaises ont mis en place des “red teams” internes specialisees dans le test de robustesse de leurs modeles. La MAIF a cree une equipe de 8 personnes dediee, qui consacre 15% de son temps a des tests adversariales. “Nous avons decouvert que notre modele de tarification etait sensible a l’ordre de saisie des informations”, temoigne le RSSI de la MAIF. “En changeant simplement l’ordre des reponses, un assureur malveillant pouvait obtenir des tarifs inferieurs de 12%.”

Les enjeux de souverainete

La dependance aux fournisseurs etrangers de modeles d’IA pose un probleme de securite supplementaire. Si une entreprise utilise un modele heberge par un fournisseur non europeen, elle ne maitrise pas les conditions de securite du modele ni les donnees qui transitent.

La strategie nationale pour l’IA, pilotee par la Direction Generale des Entreprises, encourage le deploiement de modeles heberges en France. OVHcloud propose depuis novembre 2025 une offre “AI Secured” qui garantit que les modeles sont entrainement et executes exclusivement sur des serveurs situes en France, avec un chiffrement de bout en bout et des audits de securite trimestriels.

“La souverainete numerique n’est pas qu’une question de localisation des donnees, c’est aussi une question de maitrise des modeles”, argue le directeur technique d’OVHcloud. “Si vous ne savez pas comment votre modele a ete entraine et sur quelles donnees, vous ne pouvez pas garantir sa securite.”

Perspectives

La securite des modeles d’IA est en train de devenir un marche a part entiere. Le cabinet PAC estime que les depenses des entreprises francaises dans ce domaine atteindront 800 millions d’euros en 2027, contre 280 millions en 2025. Les startups francaises du secteur, comme RobustAI, SecurAI et GuardIA, levent des fonds record : 120 millions d’euros cumules depuis le debut de l’annee.

Pour les entreprises qui deploient l’IA, le message est clair : la securite des modeles n’est pas une option, c’est un prerequis. Comme le resume le rapport de l’ANSSI : “Chaque modele deploye est une surface d’attaque supplementaire. La securite doit etre pensee des la conception, pas apres l’incident.”

Pour approfondir, lire notre analyse sur la souverainete numerique europeenne et notre dossier IA en entreprise : l’annee de la verite.

Securite des modeles d'IA : prevenir les attaques adversariales

La menace se precise

Le coût de l’inaction

Les techniques de defense se structurent

La defense adversarial par l’entrainement

Le cas specifique des LLM

La certification des modeles

L’humain dans la boucle

Les enjeux de souverainete

Perspectives

Commentaires

Laisser un commentaire

Related Posts

IA et cybersécurité : les DSI françaises s'arment contre des attaquants augmentés

Deepfakes et desinformation : les parades technologiques s'organisent

Les plateformes low-code IA democratisent l'acces aux modeles

Moderation de contenu automatisee par l'IA : les plateformes francaises a l'epreuve