Samsung lance TRUEBench pour tester la productivité de l'IA dans des scénarios de travail réels

Galaxy AI (Source d'image : Antony Muchiri)

Samsung a lancé TRUEBench, un nouveau test de référence conçu pour mesurer la capacité des systèmes d'intelligence artificielle à gérer des tâches professionnelles réelles plutôt que des tests académiques étriqués. Couvrant 2 485 scénarios dans dix catégories et douze langues, il évalue tout, des messages rapides au traitement de longs documents. La notation est stricte, exigeant des modèles qu'ils remplissent toutes les conditions, ce qui rend les résultats exigeants mais plus réalistes.

Antony Muchiri (traduit par Ninh Duy), Publié 09/26/2025 🇺🇸 🇩🇪 ...

Samsung AI Launch

L'ÉVALUATION DE L'IA ont depuis longtemps du mal à rendre compte de ce que les gens font réellement avec ces systèmes. La plupart des tests se concentrent encore sur des tâches de questions-réponses en anglais uniquement, qui semblent bien ordonnées sur le papier, mais qui ne reflètent pas la variété des activités auxquelles vous avez recours dans le cadre de votre travail quotidien. Samsung vient de lancer https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abréviation de Trustworthy Real-world Usage Evaluation Benchmark, afin de mesurer les performances de l'IA d'une manière plus proche des tâches professionnelles réelles.

TRUEBench va au-delà des simples futilités ou des échanges d'un seul message pour faire fonctionner des modèles à travers le résumé de documents, la traduction en douze langues, l'analyse de données et les instructions en plusieurs étapes qui exigent de l'IA qu'elle maintienne le contexte. Samsung a mis au point 2 485 ensembles de tests dans dix catégories et 46 sous-catégories, avec des entrées allant d'une poignée de caractères à plus de vingt mille. L'objectif est de tout simuler, des commandes rapides aux longs rapports d'activité.

Paul (Kyungwhoon) Cheun, directeur technique de la division DX de Samsung Electronics et directeur de Samsung Research, a déclaré : "Samsung Research apporte une expertise approfondie et un avantage concurrentiel grâce à son expérience de l'IA dans le monde réel. Nous espérons que TRUEBench établira des normes d'évaluation pour la productivité et consolidera le leadership technologique de Samsung."

L'outil TRUEBench AI de Samsung (Image Source : Samsung Newsroom)

Pour qu'un modèle soit accepté, il doit remplir toutes les conditions requises dans un test, y compris les conditions implicites qui reflètent ce qu'une personne raisonnable attendrait même si ces conditions ne sont pas explicitées. Cette méthode du "tout ou rien" rend les résultats moins indulgents, mais les rapproche également de la manière dont vous décideriez si un produit est réellement utile. Samsung a créé les règles en combinant l'apport humain et les vérifications de l'IA. Les annotateurs humains ont rédigé les conditions initiales, l'IA a signalé les contradictions ou les incohérences, et les humains ont encore affiné le cadre avant de le verrouiller. Une fois finalisée, l'évaluation a pu être exécutée à grande échelle grâce à la notation automatisée de l'IA.

Samsung a également rendu public l'ensemble des données, les classements et les statistiques de sortie par l'intermédiaire de Hugging Face. Vous pouvez comparer directement jusqu'à cinq modèles et voir comment leurs résultats se comparent. Ce niveau de transparence permet aux développeurs, aux chercheurs et aux utilisateurs d'examiner le benchmark au lieu de se contenter de faire confiance aux affirmations de Samsung.

Le test n'est cependant pas parfait, car l'établissement de règles comportera toujours un certain degré de partialité, et le fait d'exiger une réussite totale pour chaque condition signifie que les réponses partielles, mais néanmoins utiles, sont considérées comme des échecs. La prise en charge des langues va plus loin que la plupart des tests existants, mais les performances seront inévitablement différentes, en particulier dans les langues pour lesquelles les données de formation sont rares. L'ensemble de tests s'oriente également vers des tâches commerciales générales, de sorte que des domaines hautement spécialisés tels que le droit, la médecine ou la recherche scientifique peuvent ne pas être entièrement représentés.