L'ÉVALUATION DE L'IA ont depuis longtemps du mal à rendre compte de ce que les gens font réellement avec ces systèmes. La plupart des tests se concentrent encore sur des tâches de questions-réponses en anglais uniquement, qui semblent bien ordonnées sur le papier, mais qui ne reflètent pas la variété des activités auxquelles vous avez recours dans le cadre de votre travail quotidien. Samsung vient de lancer https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abréviation de Trustworthy Real-world Usage Evaluation Benchmark, afin de mesurer les performances de l'IA d'une manière plus proche des tâches professionnelles réelles.
TRUEBench va au-delà des simples futilités ou des échanges d'un seul message pour faire fonctionner des modèles à travers le résumé de documents, la traduction en douze langues, l'analyse de données et les instructions en plusieurs étapes qui exigent de l'IA qu'elle maintienne le contexte. Samsung a mis au point 2 485 ensembles de tests dans dix catégories et 46 sous-catégories, avec des entrées allant d'une poignée de caractères à plus de vingt mille. L'objectif est de tout simuler, des commandes rapides aux longs rapports d'activité.
Paul (Kyungwhoon) Cheun, directeur technique de la division DX de Samsung Electronics et directeur de Samsung Research, a déclaré : "Samsung Research apporte une expertise approfondie et un avantage concurrentiel grâce à son expérience de l'IA dans le monde réel. Nous espérons que TRUEBench établira des normes d'évaluation pour la productivité et consolidera le leadership technologique de Samsung."
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs
Pour qu'un modèle soit accepté, il doit remplir toutes les conditions requises dans un test, y compris les conditions implicites qui reflètent ce qu'une personne raisonnable attendrait même si ces conditions ne sont pas explicitées. Cette méthode du "tout ou rien" rend les résultats moins indulgents, mais les rapproche également de la manière dont vous décideriez si un produit est réellement utile. Samsung a créé les règles en combinant l'apport humain et les vérifications de l'IA. Les annotateurs humains ont rédigé les conditions initiales, l'IA a signalé les contradictions ou les incohérences, et les humains ont encore affiné le cadre avant de le verrouiller. Une fois finalisée, l'évaluation a pu être exécutée à grande échelle grâce à la notation automatisée de l'IA.
Samsung a également rendu public l'ensemble des données, les classements et les statistiques de sortie par l'intermédiaire de Hugging Face. Vous pouvez comparer directement jusqu'à cinq modèles et voir comment leurs résultats se comparent. Ce niveau de transparence permet aux développeurs, aux chercheurs et aux utilisateurs d'examiner le benchmark au lieu de se contenter de faire confiance aux affirmations de Samsung.
Le test n'est cependant pas parfait, car l'établissement de règles comportera toujours un certain degré de partialité, et le fait d'exiger une réussite totale pour chaque condition signifie que les réponses partielles, mais néanmoins utiles, sont considérées comme des échecs. La prise en charge des langues va plus loin que la plupart des tests existants, mais les performances seront inévitablement différentes, en particulier dans les langues pour lesquelles les données de formation sont rares. L'ensemble de tests s'oriente également vers des tâches commerciales générales, de sorte que des domaines hautement spécialisés tels que le droit, la médecine ou la recherche scientifique peuvent ne pas être entièrement représentés.