Des informaticiens publient des directives pour évaluer le texte généré par l’IA
Des informaticiens publient des directives pour évaluer le texte généré par l’IA

Des informaticiens publient des directives pour évaluer le texte généré par l'IA
Précision et variance après avoir annoté une fraction d'unités par résumé (axe X) avec FINE. Malgré l'annotation d'une fraction seulement du résumé, nous observons une corrélation tau de Kendall élevée au niveau du segment avec une annotation complète (à gauche). Cependant, nous observons une variance inter-annotateur plus élevée à mesure que la fraction diminue (à droite). Les intervalles de confiance indiqués sont de 95 % et calculés sur 1 000 sous-ensembles aléatoires (voir l'annexe F pour le graphique de gauche avec Pearson). Crédit: arXiv (2023). DOI : 10.48550/arxiv.2301.13298

La sortie publique des générateurs de texte AI, tels que ChatGPT, a provoqué un énorme émoi parmi ceux qui annoncent la technologie comme un grand bond en avant dans la communication ainsi que ceux qui prophétisent les effets désastreux de la technologie. Cependant, le texte généré par l'IA est notoirement bogué et l'évaluation humaine reste la référence pour garantir l'exactitude, en particulier lorsqu'il s'agit d'applications telles que la génération de résumés longs de textes complexes. Et pourtant, il n'y a pas de normes acceptées pour l'évaluation humaine des résumés longs, ce qui signifie que même l'étalon-or est suspect.

Pour remédier à cette lacune, une équipe d'informaticiens, dirigée par Kalpesh Krishna, étudiant diplômé du Manning College of Information and Computer Sciences de l'UMass Amherst, vient de publier un ensemble de lignes directrices appelées LongEval. Les lignes directrices ont été présentées au chapitre européen de l'Association for Computational Linguistics, pour lequel il a reçu le prix Outstanding Paper.

"Il n'existe actuellement aucun moyen fiable d'évaluer le texte généré sous forme longue sans être humain, et même les protocoles d'évaluation humains actuels sont coûteux, chronophages et très variables", explique Krishna, qui a commencé cette recherche lors d'un stage à l'Allen Institute for AI. . "Un cadre d'évaluation humaine approprié est essentiel pour créer des algorithmes de génération de texte longs plus précis."

Krishna et son équipe, y compris Mohit Iyyer, professeur adjoint d'informatique à l'UMass Amherst, ont passé au peigne fin 162 articles sur le résumé détaillé pour comprendre le fonctionnement de l'évaluation humaine - et ce faisant, ils ont découvert que 73 % des articles n'étaient pas performants. évaluation humaine sur les résumés longs du tout. Les autres documents utilisaient des pratiques d'évaluation très divergentes.

"Ce manque de normes est problématique car il entrave la reproductibilité et ne permet pas une comparaison significative entre différents systèmes", déclare Iyyer.

Pour poursuivre l'objectif de protocoles efficaces, reproductibles et standardisés pour l'évaluation humaine des résumés générés par l'IA, Krishna et ses co-auteurs ont développé une liste de trois recommandations complètes qui couvrent comment et ce qu'un évaluateur doit lire afin de juger de la fiabilité des résumés. résumé.

"Avec LongEval, je suis très enthousiaste à l'idée de pouvoir évaluer avec précision et rapidité des algorithmes de génération de texte long avec des humains", déclare Krishna. "Nous avons rendu LongEval très facile à utiliser et l'avons publié en tant que bibliothèque Python. Je suis ravi de voir comment la communauté de recherche s'en inspire et utilise LongEval dans ses recherches."

La recherche est publiée sur le arXiv serveur de préimpression.

Plus d'information: Kalpesh Krishna et al, LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form Summarization, arXiv (2023). DOI : 10.48550/arxiv.2301.13298

Informations sur la revue : arXiv
Fourni par l'Université du Massachusetts à Amherst

Citation: Des informaticiens publient des directives pour évaluer le texte généré par l'IA (2023, 7 juillet) récupéré le 7 juillet 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top