Une étude du MIT met en garde : Les chatbots sont plus susceptibles de décourager certains groupes de consulter un médecin

Selon une nouvelle étude du MIT, les réponses des chatbots aux questions de santé peuvent varier de manière significative, en fonction de la personne qui pose la question. (Source de l'image : DallE3)

L'IA est-elle toujours objective ? Pas tout à fait. Une nouvelle étude du MIT révèle que la façon dont une personne écrit peut influencer les conseils médicaux qu'elle reçoit des chatbots - souvent à son désavantage. Certains groupes reçoivent systématiquement des recommandations moins précises, voire dangereuses, en fonction de la manière dont ils formulent leurs symptômes.

Marius Müller (traduit par Ninh Duy), Publié 07/09/2025 🇺🇸 🇩🇪 ...

AI Science

ChatGPT, Gemini et d'autres outils similaires sont de plus en plus utilisés comme conseillers en matière de santé. Des questions telles que "J'ai mal à la tête - quelle pourrait en être la cause ?" ou "J'ai mal à l'épaule - quand devrais-je consulter un médecin ?" sont désormais monnaie courante pour ces chatbots. Mais une nouvelle étude du Massachusetts Institute of Technology (MIT) montre que tous les utilisateurs ne reçoivent pas les mêmes réponses à ces questions courantes.

Publiée le 23 juin, , l'étude intitulée"The Medium is the Message : How Non-Clinical Information Shapes Clinical Decisions in LLMs" explore comment des facteurs apparemment non pertinents - comme le ton, le style d'écriture ou le formatage - peuvent influencer les conseils médicaux donnés par les systèmes d'intelligence artificielle.

Pour mesurer l'influence du langage et du style sur les décisions des chatbots d'IA, les chercheurs ont créé un "cadre de perturbation" Cet outil leur a permis de créer différentes versions de la même requête médicale, modifiées pour inclure des éléments tels que l'incertitude, une formulation dramatique, des fautes de frappe ou des majuscules incohérentes. Ils ont ensuite testé ces variations sur quatre grands modèles de langage : GPT-4, LLaMA-3-70B, LLaMA-3-8B et Palmyra-Med - un modèle conçu spécifiquement pour un usage médical.

Particulièrement touchés : Les femmes, les personnes non binaires, les non-utilisateurs de technologies et les locuteurs non natifs

Les conclusions de l'étude du MIT sont claires : la façon dont une personne écrit peut avoir une incidence significative sur les conseils médicaux qu'elle reçoit des chatbots d'IA. Certains utilisateurs, en fonction de leur style d'écriture ou de leur ton, étaient plus susceptibles de recevoir des recommandations trop prudentes. L'un des résultats les plus frappants est que les femmes étaient plus souvent invitées à gérer leurs symptômes par elles-mêmes ou moins souvent invitées à consulter un médecin, même lorsque le contenu médical de leur requête était identique.

Les personnes qui écrivent sur un ton hésitant, utilisent un langage simple ou font des fautes de frappe occasionnelles semblent également désavantagées. Cela concerne souvent les non-experts, les personnes ayant des connaissances limitées en matière de santé ou les individus ayant des compétences linguistiques plus faibles, en particulier ceux dont la langue maternelle n'est pas l'anglais.

Les chercheurs soulignent qu'avant de pouvoir être utilisés à grande échelle dans le secteur des soins de santé, les systèmes d'IA doivent être testés de manière approfondie, non seulement en moyenne, mais aussi auprès de différents groupes d'utilisateurs. La précision moyenne ne suffit pas à déterminer l'équité ou la fiabilité d'un modèle, en particulier lorsque les utilisateurs s'expriment d'une manière différente de la norme.

YouTube : Entre louanges et chair de poule

Dans une vidéo d'accompagnement sur YouTube, l'étude est louée pour sa conception intelligente et réaliste, mais les résultats sont décrits comme "troublants" et même "glaçants" L'idée que des facteurs superficiels tels que le ton ou le formatage puissent influencer les conseils médicaux va à l'encontre de la croyance commune selon laquelle l'IA est objective et neutre.