Vol de données avec du texte invisible : La facilité avec laquelle ChatGPT et d'autres outils d'intelligence artificielle peuvent être trompés

Dans une attaque AgentFlayer, les images sont utilisées pour diffuser des messages cachés. (Source de l'image : OpenAI)

Lors de la conférence sur la sécurité Black Hat USA, des chercheurs ont révélé une nouvelle technique d'attaque des systèmes d'intelligence artificielle. En intégrant des instructions cachées, les attaquants peuvent manipuler silencieusement des outils tels que ChatGPT pour extraire des données sensibles du stockage en nuage connecté. Certains fournisseurs ont commencé à réagir, tandis que d'autres minimisent le risque.

Marius Müller (traduit par Ninh Duy), Publié 08/18/2025 🇺🇸 🇩🇪 ...

AI Security Cyberlaw Business

Lors de la conférence sur la sécurité Black Hat USA 2025 à Las Vegas, des chercheurs ont dévoilé une nouvelle méthode pour tromper les systèmes d'intelligence artificielle tels que ChatGPT, Microsoft Copilot et Google Gemini. La technique, connue sous le nom d'AgentFlayer, a été développée par les chercheurs de Zenity Michael Bargury et Tamir Ishay Sharbat. Un communiqué de presse https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-of-major-enterprise-ai-agents-circumventing-human-oversight-302523580.html décrivant les résultats a été publié le 6 août.

Le concept de l'attaque est d'une simplicité trompeuse : un texte est caché dans un document à l'aide d'une police blanche sur un fond blanc. Invisible à l'œil humain, il peut être facilement lu par les systèmes d'intelligence artificielle. Une fois l'image transmise à la cible, le piège est tendu. Si le fichier est inclus dans une invite, l'intelligence artificielle abandonne la tâche initiale et suit plutôt l'instruction cachée - rechercher les identifiants d'accès dans le stockage en nuage connecté.

Pour exfiltrer les données, les chercheurs ont utilisé une deuxième tactique : ils ont demandé à l'IA d'encoder les informations volées dans une URL et de charger une image à partir de celle-ci. Cette méthode permet de transférer discrètement les données vers les serveurs des attaquants sans éveiller les soupçons.

Zenity a démontré que l'attaque fonctionne dans la pratique :

Dans ChatGPT, les courriels ont été manipulés de manière à ce que l'agent d'intelligence artificielle ait accès à Google Drive.
Dans Copilot Studio de Microsoft, les chercheurs ont découvert plus de 3 000 cas de données CRM non protégées.
Salesforce Einstein a pu être trompé en redirigeant les communications des clients vers des adresses externes.
Google Gemini et Microsoft 365 Copilot étaient également susceptibles de contenir de faux courriels et de fausses entrées de calendrier.
Les attaquants ont même obtenu des identifiants de connexion à la plateforme de développement Jira par le biais de tickets falsifiés.

OpenAI et Microsoft réagissent, tandis que d'autres ne voient pas la nécessité d'agir

La bonne nouvelle, c'est qu'OpenAI et Microsoft ont déjà publié des mises à jour pour corriger les vulnérabilités après avoir été alertés par les chercheurs. D'autres fournisseurs, en revanche, ont été plus lents à réagir, certains allant même jusqu'à qualifier les exploits de "comportement intentionnel" Le chercheur Michael Bargury a souligné la gravité du problème en déclarant : "L'utilisateur n'a rien à faire pour être compromis, et aucune action n'est nécessaire pour que les données soient divulguées."