Une étude révèle que les problèmes de validation des sources nuisent à la fiabilité de ChatGPT

ChatGPT semble être partout. Morgan Stanley, Duolingo, Snapchat, Coca-Cola et Instacart ont signé, tout comme des programmeurs, des concepteurs de sites Web, des sociétés pharmaceutiques, des écrivains, des musiciens, des traducteurs et des entreprises de tous types.

Disponible pour une utilisation générale depuis seulement six mois, ChatGPT a été utilisé par plus de 100 millions d'utilisateurs dans le monde et traite plus de 10 millions de demandes par jour.

Pratiquement tous les jours, des histoires sont écrites détaillant son potentiel à tout bouleverser, des modèles commerciaux aux routines personnelles. Tout le monde veut un morceau de l'action.

Mais certains lèvent des drapeaux rouges sur les inconvénients de ChatGPT, qui est l'application à la croissance la plus rapide de l'histoire. Le plus remarquable était une lettre en mars, signée par plus de 1 000 experts, demandant un moratoire sur l'expansion de la technologie de l'IA jusqu'à ce que ses risques et ses dangers soient mieux compris.

Alors que les sceptiques se sont largement concentrés sur le potentiel des mauvais acteurs à manipuler l'IA à des fins nuisibles ou ont imaginé un scénario possible où les modèles d'IA décident par eux-mêmes d'agir de manière malveillante, d'autres se concentrent sur un problème plus immédiat : la précision.

Le Wall Street Journal a récemment mis en garde : « Les chatbots d'IA et d'autres programmes d'IA générative sont des miroirs des données qu'ils consomment. Ils régurgitent et remixent ce qu'ils reçoivent à la fois avec un grand effet et un grand échec.

Le groupe de recherche Human-Centered AI de l'Université de Stanford a publié un article sur arXiv serveur de préimpression le mois dernier qui a remis en question la fiabilité des données récupérées dans les grandes récupérations de modèles de langage.

"Un trait prérequis d'un moteur de recherche génératif digne de confiance est la vérifiabilité", a déclaré Nelson Liu, titulaire d'un doctorat. étudiant à Stanford et l'un des auteurs du rapport, a déclaré. Après avoir étudié les résultats de quatre moteurs de recherche populaires, Liu et ses deux collègues Tianyi Zhang et Percy Jiang ont rapporté que les résultats étaient "fluides et semblaient informatifs, mais contenaient fréquemment des déclarations non étayées et des citations inexactes".

Les moteurs de recherche génératifs qu'ils ont étudiés étaient Bing Chat, NeevaAI, perplexity.ai et YouChat. Les sujets allaient des données biographiques sur la chanteuse Alicia Keys à la question de la censure sur les réseaux sociaux.

Les chercheurs ont examiné quatre caractéristiques : la fluidité, l'utilité perçue (à quel point la réponse était utile), le rappel des citations (comment les déclarations générées de manière cohérente étaient entièrement étayées par des citations) et la précision des citations (la proportion de citations générées soutenant les déclarations associées).

Un moteur de recherche génératif digne de confiance a été défini comme un moteur qui atteint un rappel et une précision élevés des citations. Les résultats étaient décourageants.

L'équipe a trouvé que les réponses "avaient souvent une grande fluidité et une utilité perçue, mais contenaient fréquemment des déclarations non étayées ou des citations inexactes". Seulement environ la moitié des phrases générées étaient entièrement étayées par des citations, et un quart des citations ne supportaient pas les phrases associées.

De plus, l'équipe a découvert que le rappel et la précision des citations étaient inversement corrélés à la fluidité et à l'utilité perçue. "Les réponses qui semblent les plus utiles sont souvent celles qui contiennent des déclarations non étayées ou des citations inexactes", ont-ils observé.

En conséquence, ils ont conclu : "Cette façade de fiabilité augmente le potentiel des moteurs de recherche génératifs existants d'induire les utilisateurs en erreur".

Un article paru cette semaine dans ExtremeTech a abordé la question de l'approvisionnement : "Les chatbots comme ChatGPT et Bing Chat sont incroyablement bons pour faire apparaître les fausses informations comme vraies. Sans citations, ce qui manque à la plupart des résultats des chatbots, il est difficile de faire la différence entre l'exactitude et le mensonge, en particulier dans le quelques secondes que les utilisateurs passent sur la page de résultats d'un moteur de recherche."

Les chercheurs de Stanford ont déclaré que les résultats de leur étude "sont préoccupants pour les systèmes qui peuvent servir d'outil principal pour les utilisateurs à la recherche d'informations, en particulier compte tenu de leur façade de fiabilité".

Les chercheurs ont exprimé l'espoir que leurs recherches "motiveraient davantage le développement de moteurs de recherche génératifs fiables et aideraient les chercheurs et les utilisateurs à mieux comprendre les lacunes des systèmes commerciaux existants".

Plus d'information: Nelson F. Liu et al, Évaluation de la vérifiabilité dans les moteurs de recherche générative, arXiv (2023). DOI : 10.48550/arxiv.2304.09848

Informations sur la revue : arXiv

Citation: Une étude révèle que des problèmes de validation de source nuisent à la fiabilité de ChatGPT (2023, 9 mai) récupéré le 14 mai 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.

Source

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch