Notebookcheck Logo

Un outil open source mesure le niveau de stupidité des modèles d'IA

Les codeurs de Vibe doivent faire face à des performances incohérentes des modèles d'IA (Source de l'image : générée par OpenAI)
Les modèles d'IA ne sont pas stables (Source de l'image : générée par OpenAI)
Un nouvel outil open-source permet de surveiller en temps réel plusieurs modèles d'IA, notamment OpenAI GPT-5, Claude Opus 4 et Gemini 2.5 Pro. Premier du genre, il permet de détecter "lorsque les entreprises d'IA réduisent la capacité de leurs modèles pour réduire les coûts" Les benchmarks peuvent également être exécutés par rapport aux clés API OpenAI, xAI, Anthropic ou Google de l'utilisateur.

Ceux qui ont travaillé avec des modèles d'IA pour diverses tâches, en particulier le codage, ont remarqué que les outils logiciels se comportent de manière incohérente. Dans certains cas, ils ne fournissent tout simplement aucune réponse ; parfois, ils livrent un code erroné, et lorsqu'ils parviennent à ce qui était attendu, ils le font plus lentement que d'habitude. C'est là qu'intervient l'outil d'évaluation de l'IA, situé à l'adresse AistupidLevel.infofournit des informations en temps réel sur les performances et la précision de plusieurs modèles d'IA, y compris des données sur les coûts.

L'outil open-source susmentionné exécute plus de 140 tâches de codage, de débogage et d'optimisation sur tous les grands modèles. Pour l'instant, il suit les modèles suivants : OpenAI GPT, Claude et Gemini. Grok sera bientôt ajouté. Ses points forts sont les suivants

  • Des informations sur les prix en temps réel, puisque certains modèles qui semblent bon marché ont besoin de 10 itérations pour accomplir une tâche, alors que d'autres qui semblent plus chers à première vue accompliront la même tâche en 2 itérations, donc pour un coût effectif plus faible.
  • La possibilité d'exécuter les mêmes tests avec vos propres clés API.
  • Contrôle des performances de l'IA en temps réel, y compris le classement des modèles en fonction de leur stupidité et de leur intelligence.
  • Des recommandations intelligentes, basées sur les performances combinées.
  • Notification des dégradations actives - par exemple, Gemini-2.5-Flash est maintenant en baisse de 44 % par rapport à la valeur de référence.

Actuellement, les recommandations intelligentes sont les suivantes : Gemini-2.5-Flash-Lite pour le code, Claude-3.5-Sonnet-20241022 pour la fiabilité et Gemini-2.5-Flash-Lite pour la vitesse. Tout est en open-source sur GitHub (Repo APIRepo Front End), et tout le monde peut y contribuer. Tous les détails et l'outil lui-même peuvent être trouvés sur le site officiel, qui a été mentionné dans le premier paragraphe.

Source(s)

Reddit (traduit)

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2025 09 > Un outil open source mesure le niveau de stupidité des modèles d'IA
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)