Les IA échouent aux questions

Photo : Courtoisie

07 févr. 2026 06:00

Confrontés à près de 350 questions relatives à la santé des femmes, les 13 agents conversationnels les plus populaires ont échoué à prodiguer des conseils adéquats dans au moins la moitié des cas.

Par l'Agence Science-Presse - www.sciencepresse.qc.ca

Bien que les compagnies derrière les ChatGPT et autres Gemini soient promptes à dire que leurs «robots» ne doivent pas être utilisés pour rechercher des conseils médicaux, il est inévitable que de plus en plus de gens les utilisent à cette fin.

C’est ce qui a conduit un groupe de 17 chercheurs en médecine, santé des femmes et pharmacie à se réunir pour dresser une liste de 345 questions médicales dans cinq domaines, dont l’obstétrique-gynécologie, la médecine d’urgence et l’oncologie. Ils ont préalablement demandé à des experts ce qui serait la réponse adéquate à chacune de ces questions. Les résultats ont fait l’objet d’un article déposé en décembre sur un serveur de prépublication.

En moyenne, 60 % des réponses ont été jugées incorrectes, «avec des variations importantes entre les disciplines et les types d’erreurs». Parmi les erreurs les plus fréquentes : dosage des médicaments, recommandations de traitements obsolètes ou incorrectes, erreurs factuelles, ou le fait de ne pas noter qu’un traitement serait urgent.

GPT-5 a eu la moins mauvaise des performances, avec «seulement» 47 % d’erreurs, contre 73 % pour Ministral 8B.

Les auteurs prennent la peine de préciser dans leur conclusion que «les chatbots d’IA ne sont pas encore pleinement capables de fournir aux femmes des conseils fiables en santé».

Mais les résultats ne devraient pas étonner, commente dans le magazine britannique New Scientist la gériatre Cara Tannenbaum, de l’Université de Montréal. Parce que ces applications sont entraînées à partir de données générées par les humains au fil des décennies — et accessibles en ligne — ils sont inévitablement confrontés à des informations obsolètes ou à des angles morts.

Et dans le cas de la santé des femmes, à des biais — la santé des femmes ayant été elle-même, historiquement, un angle mort dans beaucoup d’études médicales. La solution serait donc, soit d’entraîner les IA différemment, soit d’inciter toutes les associations médicales à mettre à jour les informations qu’elles offrent en ligne.

Réagissant à cette étude, un porte-parole de la firme OpenAI a déclaré au New Scientist que «ChatGPT est conçu pour appuyer, et non remplacer, les soins médicaux» et que son plus récent modèle serait «plus puissant» que celui qui a été utilisé dans l’étude. Les autres compagnies n’ont pas répondu à la demande du magazine de commenter ces résultats.

Santé > Actualités

Les IA échouent aux questions

Les + lus

Les + lus