Un outil open source mesure le niveau de stupidité des modèles d'IA

Les modèles d'IA ne sont pas stables pour le codage des vibrations (Source de l'image : générée par OpenAI)

Un nouvel outil open-source permet de surveiller en temps réel plusieurs modèles d'IA, notamment OpenAI GPT-5, Claude Opus 4 et Gemini 2.5 Pro. Premier du genre, il permet de détecter "lorsque les entreprises d'IA réduisent la capacité de leurs modèles pour réduire les coûts" Les benchmarks peuvent également être exécutés par rapport aux clés API OpenAI, xAI, Anthropic ou Google de l'utilisateur.

Codrut Nistor (traduit par Ninh Duy), Publié 09/18/2025 🇺🇸 🇪🇸 ...

Ceux qui ont travaillé avec des modèles d'IA pour diverses tâches, en particulier le codage, ont remarqué que les outils logiciels se comportent de manière incohérente. Dans certains cas, ils ne fournissent tout simplement aucune réponse ; parfois, ils livrent un code erroné, et lorsqu'ils parviennent à ce qui était attendu, ils le font plus lentement que d'habitude. C'est là qu'intervient l'outil d'évaluation de l'IA, situé à l'adresse AistupidLevel.infofournit des informations en temps réel sur les performances et la précision de plusieurs modèles d'IA, y compris des données sur les coûts.

L'outil open-source susmentionné exécute plus de 140 tâches de codage, de débogage et d'optimisation sur tous les grands modèles. Pour l'instant, il suit les modèles suivants : OpenAI GPT, Claude et Gemini. Grok sera bientôt ajouté. Ses points forts sont les suivants

Des informations sur les prix en temps réel, puisque certains modèles qui semblent bon marché ont besoin de 10 itérations pour accomplir une tâche, alors que d'autres qui semblent plus chers à première vue accompliront la même tâche en 2 itérations, donc pour un coût effectif plus faible.
La possibilité d'exécuter les mêmes tests avec vos propres clés API.
Contrôle des performances de l'IA en temps réel, y compris le classement des modèles en fonction de leur stupidité et de leur intelligence.
Des recommandations intelligentes, basées sur les performances combinées.
Notification des dégradations actives - par exemple, Gemini-2.5-Flash est maintenant en baisse de 44 % par rapport à la valeur de référence.

Actuellement, les recommandations intelligentes sont les suivantes : Gemini-2.5-Flash-Lite pour le code, Claude-3.5-Sonnet-20241022 pour la fiabilité et Gemini-2.5-Flash-Lite pour la vitesse. Tout est en open-source sur GitHub (Repo API Repo Front End), et tout le monde peut y contribuer. Tous les détails et l'outil lui-même peuvent être trouvés sur le site officiel, qui a été mentionné dans le premier paragraphe.