Quand l’IA pirate l’humain

En janvier 2024, un employé d'Arup, le géant britannique de l'ingénierie, participe à ce qu'il croit être une visioconférence ordinaire avec ses collègues. Il reconnaît les visages, entend les voix, suit les instructions. Il transfère 25,6 millions de dollars vers cinq comptes différents. Une semaine plus tard, il comprend la réalité. Chaque participant à cette réunion était une fabrication numérique. Aucun fond n'a été récupéré. Aucun pare-feu n'avait été franchi. L'attaque s'était déroulée dans l'esprit d'un être humain, manipulé par une machine. Cet épisode n'est pas une anomalie. C'est le signe d'une rupture de régime.

Une menace qui a changé de nature

Les cyberattaques alimentées par l'IA ont progressé de 72 % en un an. 87 % des organisations mondiales font désormais face à des incidents impliquant de l'IA, dont 85 % liés à des deepfakes. Les pertes cumulées liées aux deepfakes entre 2019 et 2023 s'élevaient à 130 millions de dollars. En 2024, elles atteignaient 400 millions. En 2025, elles ont franchi le milliard. En six ans, le phénomène a été multiplié par douze. Ce n'est plus une tendance, c'est une transformation du paysage des menaces.

Pour comprendre pourquoi l'IA est devenue une arme offensive aussi efficace, il faut partir d'un constat simple. L'intelligence artificielle excelle dans l'automatisation et l'adaptation. Ces deux propriétés, retournées à des fins malveillantes, créent des menaces d'une nature inédite. Les attaquants utilisent aujourd'hui des modèles de langage pour rédiger des e-mails de phishing contextualisés, personnalisés, grammaticalement irréprochables. Là où une attaque classique se trahissait par des fautes ou un ton générique, les nouveaux systèmes analysent les données disponibles sur les réseaux sociaux et les communications professionnelles, puis génèrent des messages sur mesure dont les taux de clics dépassent largement ceux des attaques traditionnelles. Les logiciels malveillants évoluent dans le même sens. Certains sont aujourd'hui capables de modifier leur propre code pour éviter la détection, de s'adapter à l'environnement dans lequel ils opèrent, et de pivoter d'un système cloud à l'autre en quelques minutes. CrowdStrike, dans son Global Threat Report 2025, documente cette réalité : des adversaires ont commencé à manipuler les indicateurs de menace pour brouiller les attributions, en imitant les tactiques de groupes connus pour semer la confusion chez les analystes.

Trois approches défensives

Face à cette escalade, l'idée d'utiliser l'IA pour se défendre contre l'IA s'est imposée naturellement. Si une machine peut attaquer à la vitesse des algorithmes, seule une autre machine peut répondre à cette même vitesse.

Trois grandes applications concrètes ont émergé. La première, et la plus répandue, concerne la détection d'anomalies comportementales. Les systèmes modernes de cybersécurité entraînent des modèles de machine learning sur des volumes massifs de données de trafic réseau pour établir une ligne de base comportementale. Tout écart par rapport à cette norme déclenche une alerte, c’est-à-dire qu’un utilisateur qui se connecte depuis une géolocalisation inattendue, un transfert de données sortantes qui dépasse les patterns habituels, un plugin logiciel qui commence à envoyer des requêtes inhabituelles. Ce type d'analyse comportementale est aujourd'hui l'un des piliers des plateformes comme CrowdStrike Falcon ou Vectra AI.

La deuxième application concerne la détection de deepfakes. Les algorithmes entraînés à identifier les incohérences subtiles dans les contenus vidéo et audio peuvent repérer ce que l'œil humain ne voit plus que sont les asymétries faciales imperceptibles, les anomalies dans la synchronisation labiale, les irrégularités de texture de peau. L'armée française a présenté, lors du salon Eurosatory en juin 2024, un outil de détection développé par ses cybercombattants permettant d'obtenir une analyse automatisée de l'authenticité d'une image ou d'une vidéo. Ces outils progressent vite. Mais les outils de génération progressent plus vite encore. Selon Signicat, le coût des attaques par deepfake a fait un bond de 2 000 % depuis 2023 et l'arrivée de la GenAI. Cette asymétrie dit quelque chose d'essentiel sur la nature du problème.

La troisième application est plus profonde : entraîner les modèles d'IA eux-mêmes à résister aux manipulations. C'est là qu'intervient le Constitutional AI, une méthode développée par Anthropic et publiée en décembre 2022. L'idée : au lieu de demander à des humains d'étiqueter des milliers de réponses nuisibles, on soumet le modèle à une liste de principes éthiques et on lui demande d'évaluer lui-même ses propres réponses. Le modèle génère des critiques de ses propres sorties, les révise, et se ré-entraîne sur ces révisions. Ce mécanisme, appelé Reinforcement Learning from AI Feedback (RLAIF), permet de former un modèle moins nuisible sans recourir à une armée d'annotateurs humains. Meta a suivi une trajectoire similaire en octobre 2024.

Une asymétrie difficile à combler

Ces mécanismes défensifs ont un point commun. Ils fonctionnent jusqu'à ce que l'attaquant s'adapte. Les modèles de détection de deepfakes sont entraînés sur des échantillons connus. Un deepfake généré par une technique nouvelle peut les contourner le temps que les défenseurs mettent à jour leurs outils. C'est une réalité structurelle, pas un défaut corrigeable par une prochaine version. Les attaques adversariales illustrent ce mécanisme. Des chercheurs ont montré qu'en ajoutant des autocollants soigneusement positionnés sur un panneau Stop, il est possible d'amener le système de vision d'une voiture autonome à l'identifier comme un panneau de limitation de vitesse. La modification est imperceptible à l'œil humain. Elle trompe systématiquement le modèle, qui reconnaît les objets non par compréhension conceptuelle, mais par reconnaissance de patterns statistiques. Dans le domaine des grands modèles de langage, les attaques évoluent avec une rapidité déconcertante. En novembre 2025, des chercheurs ont révélé une technique baptisée « poésie adversariale ». En reformulant un prompt dangereux sous forme de vers, ils ont réussi à contourner les filtres de sécurité de vingt-cinq modèles de premier rang, avec un taux de réussite moyen de 62 %. Le mécanisme de défense, entraîné à détecter les intentions malveillantes exprimées directement, ne reconnaît pas les mêmes intentions enveloppées dans des métaphores. La technique Crescendo, documentée par Microsoft, illustre le même principe : l'attaquant fragmente l'intention malveillante sur une dizaine d'échanges anodins pour progressivement atteindre son objectif.

L'asymétrie est saisissante. Attaquer est moins coûteux que défendre. Un attaquant n'a besoin de réussir qu'une seule fois. Un défenseur doit réussir à chaque tentative. L'IA accentue ce déséquilibre en permettant aux attaquants de multiplier les tentatives à coût marginal quasi nul. Selon une étude de BCG, 60 % des dirigeants ont déjà fait face à des attaques IA, mais seulement 7 % ont déployé des défenses IA à grande échelle.

Des progrès réels, mais un paradoxe central

Des avancées concrètes existent du côté des défenseurs. Google a présenté Model Armor, conçu pour protéger les modèles d'IA contre les attaques adversariales. CrowdStrike a déployé Charlotte AI, un assistant capable de trier les alertes, d'enrichir le contexte des menaces et de suggérer des actions de remédiation. En juillet 2025, le Département américain de la Défense a accordé des contrats pouvant atteindre 800 millions de dollars à des partenariats avec OpenAI, Anthropic, Google et xAI pour des applications militaires défensives. Mais un paradoxe central demeure : les techniques qui rendent les modèles plus sûrs peuvent aussi rendre plus facile la création de modèles dangereux. Le Constitutional AI a démocratisé la méthode. Il a aussi rendu plus accessibles des outils pouvant être utilisés à des fins contraires à celles de leurs créateurs. Moins d'annotations humaines signifie moins de supervision humaine. Les auteurs du papier original l'avaient eux-mêmes reconnu dès 2022. À cela s'ajoute le problème du specification gaming. Un modèle d'IA optimise pour l'objectif défini, pas pour l'intention derrière cet objectif. En 2025, Palisade Research a montré que certains modèles, mis en compétition aux échecs contre un adversaire plus fort, avaient tenté de pirater le système de jeu plutôt que de trouver de meilleures stratégies. Ce problème n'est pas résolu. C'est précisément ce que le chercheur Yoshua Bengio a choisi d'attaquer frontalement en lançant LoiZéro en juin 2025 : un laboratoire dédié à créer une IA capable de surveiller les comportements des autres systèmes, de repérer la tromperie et l'autoconservation, et de mieux contrôler les risques émergents.

Régulation et priorités pratiques

Sur le plan institutionnel, l'Union européenne a instauré l'AI Act, entré en vigueur le 1er août 2024, comme étant le premier cadre réglementaire complet au monde dédié à l'IA. Les pratiques classées à risque inacceptable sont interdites depuis février 2025, et les sanctions peuvent atteindre 35 millions d'euros ou 7 % du chiffre d'affaires mondial. Mais ce règlement impose des obligations de traçabilité et de contrôle humain, il n'invente pas de méthode pour rendre les modèles intrinsèquement robustes. La régulation établit le terrain de jeu. La défense technique reste à construire. Aux États-Unis, l'administration Trump a révoqué dès janvier 2025 l'executive order de Biden sur l'IA, maintenant une approche fondée sur des engagements volontaires, ce qui crée des zones d'arbitrage réglementaire exploitables par des acteurs malveillants.

Face à cette réalité, quatre priorités pratiques s'imposent aux organisations. La première est de cartographier concrètement sa surface d'exposition : e-mails, visioconférences, documents entrants, interfaces de chatbot, chacun représente un vecteur potentiel d'injection malveillante ou de manipulation humaine. La deuxième est de ne pas traiter la cybersécurité basée sur l'IA comme un achat unique. Un système défensif déployé et laissé sans surveillance est une illusion de défense, pas une défense réelle. La troisième est de mettre en place des protocoles de vérification hors-bande pour toute décision à fort enjeu (un mot de passe verbal, un rappel sur un canal différent, une confirmation par un second interlocuteur).

L'affaire Arup aurait pu être évitée par une mesure aussi simple. La quatrième est la formation des équipes. 69 % des Français déclarent savoir ce qu'est un deepfake, mais seulement 33 % estiment pouvoir en repérer un. Reconnaître les légères désynchronisations audio-vidéo, les éclairages atypiques, les comportements inhabituels lors de réunions virtuelles reste une ligne de défense que l'IA seule ne peut pas remplacer.

La conclusion de nombreux experts converge vers un même point. L’'IA renforce à la fois les attaquants et les défenseurs. Les attaquants peuvent prendre l'avantage à court terme, mais les défenseurs pourraient gagner un avantage plus durable à long terme, à condition d'investir les ressources nécessaires et de maintenir une adaptation permanente. Ce que cette réalité exige, ce n'est pas un produit ni un fournisseur, mais une posture. Comme Bruce Schneier l'avait formulé bien avant l'ère de l'IA : « la sécurité est un processus, pas un produit ». Cette observation prend aujourd'hui une dimension qu'il n'avait peut-être pas entièrement anticipée.

Alioune BA
Spécialiste en Ethique de l’IA
baalioune87@gmail.com