Accueil Recherche et politiques Recherche publiée Evaluating literature reviews conducted by humans versus ChatGPT: Comparative study (en anglais - résumé en français)

Evaluating literature reviews conducted by humans versus ChatGPT: Comparative study (en anglais - résumé en français)

Cette étude vise à comparer la qualité des revues de la littérature sur les dynamiques relationnelles entre les médecins et les personnes traitées réalisées par le modèle ChatGPT-4 et celles effectuées par des êtres humains.

Evaluating literature reviews conducted by humans versus ChatGPT: Comparative study

Voir le résumé

Contexte : L’évolution rapide de l’intelligence artificielle (IA), en particulier des grands modèles de langage (GML) comme ChatGPT-4 (OpenAI), suscite un intérêt grandissant par son potentiel d’assistance aux tâches scientifiques, y compris aux revues de la littérature. Cependant, aucune étude n’a été réalisée pour comparer l’efficacité de l’IA à celle des approches classiques faisant appel à l’être humain.

Objectif : Cette étude vise à comparer la qualité des revues de la littérature sur les dynamiques relationnelles entre les médecins et les personnes traitées réalisées par le modèle ChatGPT-4 et celles effectuées par des êtres humains.

Méthodes : L’étude portait sur deux revues de la littérature sur un même sujet, c’est-à-dire les facteurs influant sur les dynamiques relationnelles entre les médecins et leurs patientes et patients dans des contextes médico-légaux. L’une de ces revues a été réalisée au moyen de GPT-4 (dernière mise à jour en septembre 2021), et l’autre, par une équipe de recherche. Cette équipe a effectué une recherche documentaire exhaustive dans Ovid MEDLINE au moyen de thèmes et des mots-clés médicaux, suivie d’une analyse thématique de la littérature pour résumer l’information tirée des articles sélectionnés. Dans le cadre de la revue générée par l’IA, on a eu recours à une nouvelle approche de rédactique fondée sur la création de requêtes itératives et séquentielles. L’analyse comparative reposait sur des paramètres qualitatifs comme l’exactitude, le temps de réponse, la cohérence, l’étendue et la profondeur des connaissances, la compréhension du contexte et la transparence.

Résultats : GPT-4 a rapidement dressé une liste exhaustive de facteurs relationnels. Le modèle d’IA montre une étendue de connaissances impressionnante, mais présente des limites en ce qui concerne la profondeur des connaissances et la compréhension du contexte, ce qui génère parfois de l’information non pertinente ou inexacte. En comparaison, la revue effectuée par l’équipe de recherche s’est montrée plus nuancée et pertinente à l’égard du contexte. Dans le cadre de l’analyse comparative, on a évalué les revues de la littérature en fonction de certains critères comme l’exactitude, le temps de réponse, la cohérence, l’étendue et la profondeur des connaissances, la compréhension du contexte et la transparence. Si GPT-4 a montré des avantages en ce qui concerne le temps de réponse et l’étendue des connaissances, les équipes de recherche ont excellé en matière d’exactitude, de profondeur des connaissances et de connaissance du contexte.

Conclusions : Les résultats de l’étude laissent croire que GPT-4, utilisé selon une approche de rédactique structurée, peut être un outil utile pour effectuer une revue préliminaire de la littérature puisqu’il permet d’obtenir rapidement un vaste aperçu des sujets. Étant donné ses limites, il est toutefois essentiel que les données générées soient attentivement évaluées et affinées par des personnes expertes. Par conséquent, il peut aider les équipes de recherche à effectuer des revues de la littérature, mais il ne les remplace pas. L’étude montre aussi le potentiel et les limites des outils fondés sur l’IA, comme GPT-4 dans le cadre d’une recherche universitaire, en particulier dans les domaines des services de santé et de la recherche médicale. Elle démontre qu’il est nécessaire d’allier les capacités d’extraction rapide de renseignements de l’IA à l’expertise humaine pour obtenir des données exactes et pertinentes à l’égard du contexte.

Voir la référence

Mostafapour M, Fortier JH, Pacheco K, Murray H, Garber G. Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study, JMIR AI 2024;3:e56537 (19 août 2024). doi: 10.2196/5653