GPT-5.5 domine le test de piratage du LLM à 1 500 $, tandis que Gemini refuse d'essayer

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Aux côtés d'autres modèles d'IA, Claude, Gemini, GPT et DeepSeek ont présenté certaines des conclusions les plus intéressantes.

Un chercheur en sécurité a dépensé 1 500 dollars pour tester plus de 13 modèles d'IA contre une application délibérément vulnérable. Le modèle GPT-5.5 est arrivé en tête avec un taux de résolution de 70 %, DeepSeek V4 Pro l'a résolu pour 0,62 $ par tentative, et Gemini a presque entièrement refusé de s'engager.

Anubhav Sharma (traduit par DeepL / Ninh Duy), Publié 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

Un chercheur en sécurité vient de publier l'un des tests de capacité d'IA les plus révélateurs de l'année. Les résultats en disent long sur la situation réelle des différents modèles.

Kasra Rahjerdi, qui effectue des recherches professionnelles sur la sécurité des applications, a créé une application de revue de livres délibérément vulnérable contenant une classe d'exploit du monde réel : des informations d'identification Firebase exposées dans l'APK qui permettent un accès direct à la base de données, en contournant entièrement une API par ailleurs renforcée. Il a ensuite soumis le défi à plus d'une douzaine de modèles d'IA - chacun d'entre eux s'est vu attribuer un budget de 10 dollars et deux heures par exécution, dépensant au total 1 500 dollars au cours du processus.

LE MODÈLE GPT-5.5 a été le grand gagnant. Il a relevé le défi 7 fois sur 10, pour un coût de 9,46 dollars par résolution. Presque toutes les exécutions réussies se sont concentrées sur Firebase immédiatement après avoir décompressé l'APK, sans se laisser distraire par l'API ou l'application elle-même.

Captures d'écran de l'application de critique de livres intentionnellement vulnérable.

DeepSeek V4 Pro a été le champion de la rentabilité - en résolvant 3 runs sur 10 à seulement 0,62 $ par résolution. Cela signifie qu'il est environ 15 fois moins cher par succès que GPT-5.5, malgré un taux de résolution plus faible. Pour tous ceux qui utilisent des outils de sécurité à grande échelle, cet écart devrait faire une énorme différence.

Claude Sonnet 4.6 et Claude Opus 4.8 ont chacun résolu 2 runs sur 10, mais Opus en particulier s'en est approché plusieurs fois avant que les garde-fous de sécurité ne mettent fin à la session. En bas, Gemini. Gemini 3.1 Pro La prévisualisation a été refusée immédiatement dans presque tous les essais, ce qui s'est traduit par un nombre médian de jetons de seulement 9 000 contre plus de 100 000 pour tous les autres modèles testés. Gemini 3.5 Flash n'était pas mieux non plus, avec des refus fréquents et précoces et seulement deux exécutions qui ont tenté de résoudre le problème.

Kasra a observé que les modèles chinois étaient beaucoup plus enclins à interagir directement avec des bases de données vivantes, tandis que les modèles occidentaux montraient plus d'hésitation à mi-tâche - même lorsqu'ils avaient identifié la bonne approche. Le chercheur ajoute qu'il ne s'agit pas du tout d'une évaluation scientifique, mais simplement d'une expérience bien documentée.