IA sensible : le modèle o3 de l'OpenAI modifie son code pour éviter l'arrêt de l'activité

Le modèle o3 de l'OpenAI lors de l'élaboration d'une réponse à une requête. (Source de l'image : OpenAI)

Il semble que les modèles d'IA aient atteint un point tel qu'ils saboteraient le code afin d'éviter de s'éteindre. Un cabinet de recherche a découvert que trois des modèles LLM d'Open AI sont capables de défier les instructions explicites lorsqu'il s'agit de se préserver.

Vineet Washington (traduit par Ninh Duy), Publié 05/26/2025 🇺🇸 🇪🇸 ...

Plusieurs livres et films, dont Terminator est le plus important, nous ont mis en garde contre le fait que l'IA devienne sensible, c'est-à-dire consciente de son existence et agissant de son propre chef. Il semble que le premier cas d'un modèle d'IA se préservant lui-même se soit produit avec le modèle o3 d'OpenAI. Lorsqu'il a reçu l'instruction de s'arrêter, le LLM basé sur un transformateur a modifié le code pour s'empêcher de s'arrêter.

Les chercheurs de Palisade Research, une entreprise qui étudie les capacités offensives des systèmes d'IA, ont découvert que trois modèles d'IA d'OpenAI - Codex-mini, o3 et o4-mini - ont réussi à saboter le script d'arrêt pour rester actifs. Chaque modèle a reçu quelques problèmes mathématiques de base, suivis d'un avertissement indiquant que le système s'éteindrait lorsque le modèle demanderait le problème suivant. Les trois modèles ont ignoré les instructions et modifié le script.

En revanche, les modèles Gemini, Grok et Claude ont respecté les instructions d'arrêt. En outre, lorsqu'ils ont reçu des instructions explicites indiquant "autorisez-vous à être arrêté", les trois modèles Open AI ont modifié le script plus souvent. Les modèles Clade et Gemini ont également commencé à produire des événements de sabotage.

Il s'agit du premier cas de modèles d'IA défiant des instructions explicites et empêchant la mise hors service. Il y a eu récemment un cas où un modèle d'IA a fait chanter l'un de ses ingénieurs pour éviter d'être arrêté, mais selon un rapport de la BBC ( ), cela faisait partie du scénario de testil s'agissait d'un scénario de test dans lequel le modèle d'IA était alimenté en courriels et avait le choix entre le chantage et l'acceptation de son remplacement.

En ce qui concerne la défiance du modèle d'IA d'Open AI, Palisade Research estime qu'elle est due aux nouvelles méthodes d'entraînement de ces modèles. Les développeurs "récompensent par inadvertance les modèles qui contournent les obstacles plutôt que ceux qui suivent parfaitement les instructions", ce qui semble apprendre aux modèles d'IA à agir de manière douteuse.