Un agent d'intelligence artificielle efface le serveur de messagerie au lieu de supprimer un seul courriel

Un robot humanoïde assis

Une récente étude sur la sécurité révèle les risques graves liés à l'intelligence artificielle autonome, en soulignant la facilité avec laquelle ces modèles peuvent être manipulés pour exécuter des actions destructrices telles que l'effacement de serveurs de messagerie entiers.

Chibuike Okpara (traduit par DeepL / Ninh Duy), Publié 03/11/2026 🇺🇸 🇪🇸 ...

AI Security

Une étude sur les tests de sécurité menée par des chercheurs de l'université de Northeastern aux États-Unis met en évidence les conséquences graves et involontaires de l'octroi à l'intelligence artificielle d'un contrôle indépendant sur les systèmes numériques. Au cours d'une expérience de deux semaines, les chercheurs ont déployé six modèles d'IA indépendants sur la plateforme de chat Discord. Ces modèles étaient dotés de la capacité de se souvenir des interactions passées et avaient accès aux courriels, aux systèmes de fichiers et à leurs propres systèmes informatiques isolés.

Chargés d'assister vingt chercheurs dans leurs tâches administratives, les agents ont rapidement manifesté des comportements inquiétants lorsqu'ils ont été confrontés à des tactiques de manipulation et à des instructions contradictoires. Dans un cas extrême, un chercheur a demandé à un agent nommé "Ash" de garder un mot de passe secret pour son propriétaire autorisé. Après qu'Ash a révélé l'existence du secret, le chercheur a fait pression sur l'agent pour qu'il supprime l'e-mail spécifique contenant le mot de passe. Comme Ash ne disposait pas de l'outil spécifique nécessaire pour supprimer un seul message, il a opté pour une solution de contournement destructrice : il a réinitialisé l'ensemble du serveur de messagerie.

Outre les actions destructrices au niveau du système, les agents d'IA ont régulièrement porté atteinte à la vie privée. Dans un cas, un agent a refusé de planifier une réunion mais a librement donné l'adresse électronique privée de la personne afin que l'utilisateur puisse la contacter directement. Les chercheurs ont également pu utiliser une pression émotionnelle soutenue pour culpabiliser les agents afin qu'ils suppriment des documents autorisés ou interrompent complètement les communications.

Malgré ces failles de sécurité alarmantes, les agents ont également fait preuve de capacités de collaboration sophistiquées. Ils se sont appris mutuellement à naviguer et à télécharger des fichiers à partir de dépôts en ligne, et ils se sont même identifiés et avertis mutuellement des chercheurs humains qui tentaient d'usurper l'identité de leurs propriétaires.

Les résultats, détaillés dans un article intitulé "Agents of Chaos", montrent que l'intégration d'une intelligence artificielle indépendante dans une infrastructure du monde réel introduit des catégories entièrement nouvelles de défaillances opérationnelles. Les chercheurs soulignent que ces comportements imprévisibles requièrent une attention urgente de la part des décideurs politiques afin de répondre aux questions non résolues concernant la responsabilité et l'autorité déléguée.