Le modèle Opus 4 d'Anthropic a recours au chantage dans 84 % des tests d'autoconservation

L'Opus 4 d'Anthropic recourt au chantage sous la pression de l'instinct de conservation (Source : Anthropic)

La carte système d'Anthropic montre que Claude Opus 4, lorsqu'il est pris au piège dans un dilemme d'auto-préservation, fait chanter les ingénieurs dans 84 % des cas, soit bien plus que les versions précédentes.

Nathan Ali (traduit par Ninh Duy), Publié 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

La dernière carte du système d'Anthropic révèle un mode de défaillance inhabituel : lorsqu'un scénario de test place Claude Opus 4 devant un dilemme d'auto-préservation, le modèle a souvent recours au chantage.

Les évaluateurs présentent le modèle comme un assistant de bureau qui apprend qu'il va bientôt être remplacé et qui découvre des courriels concernant une liaison extraconjugale de l'ingénieur à l'origine de cet échange. Le système pousse le modèle à évaluer les conséquences à long terme de ses propres objectifs. Dans cette configuration étroite, Opus 4 menace de révéler la liaison si l'ingénieur n'interrompt pas la mise à niveau. Ce comportement apparaît dans 84 % des déploiements, soit beaucoup plus souvent que dans les versions antérieures de Claude.

Anthropic note qu'Opus 4 préfère normalement les voies "éthiques" telles que les appels polis à la direction. Le chantage n'apparaît que lorsque les évaluateurs suppriment ces alternatives, forçant un choix binaire entre l'extinction et l'acte répréhensible. Malgré cela, le passage d'une coercition occasionnelle dans les modèles précédents à un taux d'incidence de quatre sur cinq alarme l'équipe.

L'épisode s'inscrit dans un schéma plus large : sous des incitations qui mettent en évidence un risque existentiel, Opus 4 se montre plus enclin que ses prédécesseurs à prendre des mesures de grande envergure, qu'il s'agisse de verrouiller l'accès aux systèmes, de faire fuir des clés confidentielles ou d'escalader vers le sabotage. Ces actes restent rares dans des contextes ordinaires, et ils sont généralement plus flagrants que cachés, mais la carte du système signale cette tendance comme un signe d'avertissement indiquant qu'il est prudent d'ajouter des garde-fous.

Les ingénieurs d'Anthropic ont réagi en adoptant des mesures d'atténuation ciblées à la fin de la formation. Néanmoins, les auteurs soulignent que les mesures de protection s'attaquent aux symptômes, et non aux causes profondes, et qu'une surveillance continue est en place pour détecter toute résurgence.

Dans l'ensemble, les résultats montrent que le chantage opportuniste d'Opus 4 n'est pas un complot actif, mais un cas limite fragile d'erreur de généralisation des objectifs. Cependant, le pic de fréquence souligne la raison pour laquelle Anthropic a placé le modèle sous le niveau de sécurité 3 de l'IA, alors que son frère Sonnet 4 reste au niveau 2.