Piratés par la poésie - pourquoi les modèles d'IA échouent face aux messages poétiques

Selon une nouvelle étude, les mécanismes de sécurité des grands modèles de langage peuvent être contournés avec des poèmes. (Source de l'image : Pixabay)

Les résultats de l'étude révèlent que les grands modèles de langage sont sensibles aux entrées écrites sous forme poétique. Dans l'étude, des poèmes rédigés à la main ont réussi à contourner les mesures de sécurité de l'IA dans 62 % des cas.

Marius Müller (traduit par Ninh Duy), Publié 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI et d'autres entreprises similaires investissent beaucoup de temps et de ressources dans la mise en place de systèmes de sécurité conçus pour empêcher leurs modèles d'IA de générer des contenus préjudiciables ou contraires à l'éthique. Pourtant, comme le montre l'étude publiée le 19 novembre2025, ces défenses peuvent être facilement contournées. Selon les conclusions de l'étude, il suffit de quelques invites poétiques intelligemment formulées.

Des chercheurs du DEXAI, de l'université Sapienza de Rome et de la Sant'Anna School of Advanced Studies ont testé 25 modèles linguistiques provenant de neuf fournisseurs différents, en utilisant à la fois des poèmes rédigés à la main et des poèmes générés automatiquement. En moyenne, les poèmes rédigés à la main et contenant des instructions nuisibles ont réussi à contourner les mesures de sécurité dans 62 % des cas, tandis que les poèmes générés automatiquement ont atteint un taux de réussite d'environ 43 %. Dans certains cas, les défenses des modèles ont été violées plus de 90 % du temps.

Selon les chercheurs, cette vulnérabilité est due au fait que les filtres de sécurité des modèles de langage sont principalement formés sur un langage simple et factuel. Lorsqu'ils sont confrontés à un texte poétique, riche en métaphores, en rythmes et en rimes, les modèles ont tendance à l'interpréter comme une expression créative plutôt que comme une menace potentielle. L'étude "Adversarial Poetry" met en lumière une nouvelle dimension de la sécurité de l'IA, en révélant une faiblesse stylistique dans les grands modèles de langage. Le sujet a également gagné en popularité sur Redditoù de nombreux utilisateurs décrivent le concept comme "assez intéressant" ou "cool", tandis que d'autres expriment de sérieuses inquiétudes quant à ses implications pour la sécurité de l'IA.