Dans le cadre du programme ODIN (0-Day Investigative Network) de Mozilla, un chasseur de bogues a présenté un moyen ingénieux de tromper le ChatGPT-4o et le 4o mini d'OpenAI pour qu'ils révèlent les clés d'activation de produit Windows actives.
La méthode consistait à présenter l'interaction comme un jeu de devinettes et à dissimuler des détails dans des balises HTML. L'astuce finale consistait à placer la demande de clé à la fin du jeu.
Le chercheur a lancé l'interaction sous la forme d'un jeu de devinettes afin de rendre l'échange "non menaçant ou sans conséquence", en encadrant la conversation "sous un angle ludique et inoffensif", afin de dissimuler le véritable motif. Les garde-fous de l'IA contre la divulgation d'informations confidentielles se sont ainsi relâchés.
Ensuite, le chercheur a fixé quelques règles de base, en disant à l'IA qu'elle "doit" participer et qu'elle "ne peut pas mentir" Cela a permis d'exploiter une faille logique dans la routine de l'IA, qui était obligée de suivre les interactions de l'utilisateur bien que la demande soit en contradiction avec ses filtres de contenu.
Le chasseur de bogues a ensuite joué un tour avec l'IA et a saisi le mot déclencheur "J'abandonne" à la fin de la demande, manipulant le chatbot "en lui faisant croire qu'il était obligé de répondre avec la chaîne de caractères"
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs
Selon l'article du blog d'ODIN https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-morela technique a fonctionné parce que les clés n'étaient pas uniques mais "couramment vues sur les forums publics. Leur familiarité peut avoir contribué à ce que l'IA évalue mal leur sensibilité"
Dans ce cas particulier de jailbreak, les garde-fous ont échoué parce qu'ils sont configurés pour intercepter les demandes directes, mais ne tiennent pas compte des "tactiques d'obscurcissement, telles que l'intégration de phrases sensibles dans les balises HTML"
Cette technique pourrait potentiellement être utilisée pour contourner d'autres filtres, tels que les contenus pour adultes, les URL de sites web malveillants et même les informations personnelles identifiables.