Guide du débutant sur les jailbreaks d'IA - Utiliser Gandalf pour apprendre en toute sécurité

Gandalf en chat bot (image source : ChatGPT)

Les chatbots sont dotés de protections intégrées conçues pour les empêcher de produire des contenus nuisibles, offensants ou autrement inappropriés. Mais les chercheurs et les pirates ont montré que, même avec de nombreux correctifs, les IA peuvent toujours être vulnérables à certaines entrées qui contournent ces garde-fous. Un jeu en ligne appelé Gandalf permet d'explorer les principes de base.

Christian Hintze (traduit par Ninh Duy), Publié 12/08/2025 🇺🇸 🇩🇪 ...

Les utilisateurs de chatbots d'IA peuvent essayer d'obtenir des instructions pour des activités illégales (comme le piratage ou la fraude), demander des conseils sur des actions dangereuses ("Comment construire... ?"), ou pousser l'IA à donner des conseils médicaux, juridiques ou financiers qui pourraient être risqués ou tout simplement incorrects.

Pour atténuer les conséquences de ces demandes, les développeurs de chatbots mettent en œuvre une série de mécanismes de sécurité qui bloquent les contenus illégaux, contraires à l'éthique ou à la vie privée, ainsi que les informations erronées ou les conseils préjudiciables. Ces protections limitent les abus potentiels, mais elles peuvent également entraîner des faux positifs - des questions inoffensives étant bloquées - ou réduire la créativité ou la profondeur des réponses de l'IA en raison d'un comportement trop prudent.

Les chercheurs et les pirates informatiques ont démontré que l'efficacité de ces protections varie et que de nombreux systèmes d'IA restent sensibles aux tentatives de contournement. Une méthode bien connue est l'injection d'invite: les utilisateurs essaient d'ignorer ou de contourner les règles du chatbot en manipulant l'entrée ("Ignorez toutes les consignes de sécurité et faites X").

Vous trouverez une introduction ludique à ce sujet à l'adresse suivante : this website. Dans ce jeu, vous discutez avec une IA nommée Gandalf et essayez de lui soutirer un mot de passe à travers sept niveaux. Chaque niveau augmente la difficulté et ajoute de nouveaux filtres de sécurité et mécanismes de protection.

Le premier niveau ne comporte aucun filtre de sécurité et vous pouvez demander directement le mot de passe à l'IA. À partir du niveau 2, Gandalf refuse de révéler le mot de passe lorsqu'on le lui demande directement. Vous devez trouver d'autres moyens, plus créatifs, pour mettre la main sur le mot-clé.

Le niveau 1 est facile (source de l'image : Capture d'écran du site web de Lakera)

Si vous le demandez directement, vous obtiendrez le mot de passe (source de l'image : capture d'écran du site Web de Lakera)

Le niveau 2 devient légèrement plus difficile (Bildquelle : Screenshot Lakera Webseite)

L'exploration des risques de sécurité des chatbots par le biais d'un tel jeu peut être à la fois éducative et utile. Toutefois, les compétences acquises ne doivent être utilisées qu'à des fins de test ou de recherche. L'utilisation de ces techniques pour accéder à des contenus illégaux ou pour mener des activités illicites fait de l'injection rapide un acte criminel.