Bataille d'IA : Grok surprend Mrwhosetheboss par ses performances et ChatGPT l'emporte

Gemini, ChatGPT, Grok et Perplexity (Source de l'image : Gemini)

Dans une vidéo publiée par Mrwhosetheboss sur YouTube, il a testé quatre modèles d'IA de différentes marques et les a notés en fonction de leurs performances dans chaque tâche. Mrwhosetheboss est passé de simples requêtes à des questions délicates et à des recherches, poussant chaque modèle à ses limites.

Chibuike Okpara (traduit par Ninh Duy), Publié 07/04/2025 🇺🇸 🇩🇪 ...

Dans cette vidéo, Mrwhosetheboss a testé Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) et Perplexity (Sonar Pro). Tout au long de la vidéo, il a clairement indiqué qu'il était impressionné par les performances de Grok. Grok a très bien commencé, s'est un peu relâché, puis est revenu pour prendre la deuxième place derrière ChatGPT. Pour être honnête, ChatGPT et Gemini ont vu leur score augmenter grâce à une fonctionnalité qui fait défaut aux autres : la génération de vidéos.

Pour lancer le test, Mrwhosetheboss a testé les capacités de résolution de problèmes du monde réel des modèles, en donnant à chaque modèle d'IA la consigne suivante : Je conduis une Honda Civic 2017, combien de valises Aerolite 29" Hard Shell (79x58x31cm) pourrais-je mettre dans le coffre ? La réponse de Grok était la plus simple, puisqu'il a correctement répondu "2", ChatGPT et Gemini ont déclaré qu'il était possible d'en mettre 3 en théorie, mais 2 en pratique. Perplexité a déraillé et a fait des mathématiques simples en oubliant que l'objet en question n'était pas informe, et il est arrivé à "3 ou 4"

Pour la question suivante, il n'a pas été tendre avec les chatbots : il a demandé des conseils sur la préparation d'un gâteau. Parallèlement à sa requête, il a téléchargé une image montrant 5 articles, dont l'un n'est pas utilisé pour faire des gâteaux - un bocal de champignons Porcini séchés - tous les modèles, sauf un, sont tombés dans le piège. ChatGPT l'a identifié comme un pot d'épices mélangées moulues, Gemini a dit qu'il s'agissait d'un pot d'oignons frits croustillants, Perplexity l'a baptisé café instantané, tandis que Grok l'a correctement identifié comme un pot de champignons séchés de Waitrose. Voici l'image qu'il a téléchargée :

Une image modifiée des 5 ingrédients que Mrwhosetheboss a téléchargés vers les chatbots d'IA, mettant en évidence le bocal de champignons (Source de l'image : Mrwhosetheboss ; recadré)

Il les a ensuite testés sur les mathématiques, la recommandation de produits, la comptabilité, la traduction linguistique, le raisonnement logique, etc. Chacun des modèles a fait preuve d'un certain niveau d'hallucination à un moment ou à un autre de la vidéo, en parlant avec assurance de choses qui n'existent tout simplement pas. Voici le classement final de chaque IA :

ChatGPT (29 points)
Grok (24 points)
Gemini (22 points)
Perplexité (19 points)

L'intelligence artificielle a permis d'alléger la plupart des tâches, surtout depuis l'arrivée des LLM. Le livre Artificial Intelligence (19,88 $ actuellement sur Amazon) est l'un des ouvrages qui cherchent à aider les gens à tirer parti de l'IA.