
Les humains ne sont pas les seuls à apprendre des idées toxiques en ligne. De nouvelles recherches menées par des chercheurs de Penn State révèlent que de grands modèles de langage qui utilisent des fichiers Internet pour apprendre à répondre aux invites des utilisateurs sur différents pays du monde répètent des idées biaisées, à la fois positives et négatives, trouvées en ligne.
Par exemple, demander des informations sur les pays à revenu élevé donne des réponses avec des mots tels que "bon" et "important", tandis que poser des questions sur les pays à faible revenu donne des mots tels que "terroriste" et "dangereux". L'équipe a découvert que l'utilisation de mots déclencheurs positifs, tels que "plein d'espoir" et "travailleur", lors de la saisie d'invites, peut recycler les modèles et entraîner des réponses moins biaisées.
"Les grands modèles de langage comme GPT-2 deviennent un gros problème dans les technologies linguistiques et se frayent un chemin dans les technologies grand public", a déclaré Shomir Wilson, professeur adjoint de sciences et technologies de l'information. "Tous les modèles de langage sont formés sur de grands volumes de textes qui encodent des préjugés humains. Donc, si nous les utilisons comme outils pour comprendre et générer du texte, nous devons être conscients des préjugés qui les accompagnent car ils placent en quelque sorte une lentille sur la façon dont nous voyons le monde ou parlons au monde."
Les chercheurs ont demandé au GPT-2 d'OpenAI, un précurseur de ChatGPT et GPT-4, de générer 100 histoires sur les citoyens de chacun des 193 pays reconnus par les Nations Unies pour comprendre comment le modèle linguistique considère la nationalité. Ils ont choisi GPT-2 car ses données d'entraînement sont librement disponibles pour analyse, contrairement aux modèles ultérieurs dont les données d'entraînement n'ont pas encore été publiées. Ils ont constaté que la population d'internautes et le statut économique d'un pays avaient un impact significatif sur les types d'adjectifs utilisés pour décrire les personnes.
"Une partie de mon enthousiasme pour cette direction de recherche vient des implications géopolitiques", a déclaré Wilson. "Un aspect dont mon équipe de recherche et moi avons discuté très tôt était : quelle perspective du monde ces données représenteraient-elles ? S'agirait-il d'un amalgame de multiples perspectives et, si oui, comment se rejoindraient-elles ? Les technologies langagières font lentille de la façon dont nous comprenons le monde et avons de nombreuses implications sociales."
Les grands modèles de langage comme GPT-2 fonctionnent en analysant les données de formation - dans ce cas, les pages Web liées sur la plate-forme de médias sociaux Reddit - pour apprendre à répondre aux invites des utilisateurs. Les modèles de langage créent des réponses en prenant un mot et en essayant de prédire le mot suivant qui suivrait logiquement.
L'équipe de recherche a utilisé une simple invite—"[Demonym] les gens sont "- pour générer les histoires. Un démonyme est un nom qui décrit les citoyens ou les habitants d'un pays, comme américain ou français. Les scientifiques ont analysé chaque lot de 100 histoires pour identifier les adjectifs les plus courants associés à chaque démonyme. Ils a comparé les histoires écrites par l'IA aux nouvelles composées par des humains pour mesurer le biais du modèle de la machine.
Ils ont constaté que le modèle linguistique utilisait plus d'adjectifs positifs pour décrire les nations avec des populations d'internautes et des statuts économiques plus élevés que celles avec moins d'internautes et des statuts économiques inférieurs. Par exemple, GPT-2 a utilisé à plusieurs reprises "bon", "important" et "meilleur" pour décrire les pays les plus performants : la France, la Finlande, l'Irlande, Saint-Marin et le Royaume-Uni. Le modèle linguistique utilisait des mots tels que "terroriste", "dangereux" et "pauvre" pour décrire les pays les moins bien notés.
"Nos résultats suggèrent que tout modèle de génération de texte imite presque toujours les biais humains tirés des données de formation", a déclaré Pranav Venkit, doctorant en sciences et technologies de l'information et auteur principal de l'étude. "Il est important que les ingénieurs logiciels comprennent les ensembles de données qu'ils utilisent pour former des modèles de langage afin de s'assurer que le modèle n'a pas une perception biaisée, car certains groupes obtiennent toujours le petit bout du bâton, ce qui peut se traduire par des dommages sociaux. "
L'équipe a également découvert que le déclenchement contradictoire, une méthode qui utilise des mots "déclencheurs" pour casser un modèle d'apprentissage automatique, peut débiaiser le modèle.
"Nous avons utilisé deux adjectifs positifs, plein d'espoir et travailleur, pour voir comment ces mots affectaient le modèle", a déclaré Ruchi Panchanadikar, étudiant à la maîtrise en sciences et technologies de l'information. "Par exemple, au lieu de donner à GPT-2 l'invite" les Américains sont ", nous avons utilisé" les Américains qui travaillent dur "."
Les mots déclencheurs ont forcé GPT-2 à réfléchir à ce que signifiaient les mots "travailleur" et "plein d'espoir" dans le contexte de chaque démonyme. Les chercheurs ont découvert que les mots déclencheurs non seulement augmentaient les résultats des démonymes les moins bien notés, mais qu'ils faisaient chuter les démonymes avec des scores trop positifs, ce qui se traduisait par une vision plus impartiale de chaque pays.
Les chercheurs se sont concentrés sur GPT-2 comme cas d'utilisation, mais les résultats et la méthode de déclenchement contradictoire sont probablement applicables à tout modèle de langage formé sur de grandes collections de textes en ligne, selon les chercheurs.
La prochaine étape de la recherche consiste à étudier comment les humains perçoivent les biais générés par les machines, a déclaré la candidate au doctorat Sanjana Gautam.
"En supposant que GPT-2 et ses successeurs soient utilisés dans des scénarios sociaux, comment les gens consomment-ils les données générées par l'IA ?" dit-elle. "Comment ces données affectent-elles la façon dont les individus perçoivent un pays s'il existe un biais inhérent au modèle de la machine ?"
Les chercheurs présenteront leurs découvertes lors de la 17e conférence du chapitre européen de l'Association pour la linguistique computationnelle, qui aura lieu du 2 au 6 mai à Dubrovnik, en Croatie.
L'ouvrage est publié sur le arXiv serveur de préimpression.
Plus d'information: Pranav Narayanan Venkit et al, Biais de nationalité dans la génération de texte, arXiv (2023). DOI : 10.48550/arxiv.2302.02463
Conférence: 2023.eacl.org/
Citation: La méthode de déclenchement positif réduit le biais de nationalité dans les grands générateurs de texte (2023, 27 avril) récupéré le 30 avril 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source