Les modèles d'IA ne parviennent pas à reproduire les jugements humains sur les violations des règles

intelligence artificielle — Crédit : Pixabay/CC0 Domaine public

Dans un effort pour améliorer l'équité ou réduire les arriérés, les modèles d'apprentissage automatique sont parfois conçus pour imiter la prise de décision humaine, comme décider si les publications sur les réseaux sociaux violent les politiques de contenu toxique.

Mais des chercheurs du MIT et d'ailleurs ont découvert que ces modèles ne reproduisent souvent pas les décisions humaines concernant les violations des règles. Si les modèles ne sont pas formés avec les bonnes données, ils sont susceptibles de porter des jugements différents, souvent plus sévères que les humains.

Dans ce cas, les "bonnes" données sont celles qui ont été étiquetées par des humains à qui on a explicitement demandé si les éléments défiaient une certaine règle. La formation consiste à montrer à un modèle d'apprentissage automatique des millions d'exemples de ces "données normatives" afin qu'il puisse apprendre une tâche.

Mais les données utilisées pour former les modèles d'apprentissage automatique sont généralement étiquetées de manière descriptive, ce qui signifie que les humains sont invités à identifier des caractéristiques factuelles, telles que, par exemple, la présence d'aliments frits sur une photo. Si des "données descriptives" sont utilisées pour former des modèles qui jugent les violations des règles, par exemple si un repas viole une politique scolaire qui interdit les aliments frits, les modèles ont tendance à surestimer les violations des règles.

Cette baisse de précision pourrait avoir de graves implications dans le monde réel. Par exemple, si un modèle descriptif est utilisé pour décider si un individu est susceptible de récidiver, les résultats des chercheurs suggèrent qu'il peut émettre des jugements plus stricts qu'un humain, ce qui pourrait entraîner des montants de caution plus élevés ou des peines pénales plus longues.

"Je pense que la plupart des chercheurs en intelligence artificielle/apprentissage automatique supposent que les jugements humains dans les données et les étiquettes sont biaisés, mais ce résultat dit quelque chose de pire. Ces modèles ne reproduisent même pas des jugements humains déjà biaisés parce que les données qu'ils sont formés on a un défaut : les humains étiquetteraient différemment les caractéristiques des images et du texte s'ils savaient que ces caractéristiques seraient utilisées pour un jugement. Cela a d'énormes ramifications pour les systèmes d'apprentissage automatique dans les processus humains », explique Marzyeh Ghassemi, professeur adjoint et directeur de le groupe Healthy ML du Laboratoire d'informatique et d'intelligence artificielle (CSAIL).

Ghassemi est l'auteur principal d'un nouvel article détaillant ces découvertes, qui est publié dans Avancées scientifiques le 10 mai. L'auteure principale Aparna Balagopalan, étudiante diplômée en génie électrique et en informatique, se joint à elle pour l'article; David Madras, étudiant diplômé à l'Université de Toronto; David H. Yang, un ancien étudiant diplômé qui est maintenant co-fondateur de ML Estimation ; Dylan Hadfield-Menell, professeur adjoint au MIT ; et Gillian K. Hadfield, titulaire de la chaire Schwartz Reisman en technologie et société et professeure de droit à l'Université de Toronto.

Écart d'étiquetage

Cette étude est née d'un projet différent qui a exploré comment un modèle d'apprentissage automatique peut justifier ses prédictions. En rassemblant des données pour cette étude, les chercheurs ont remarqué que les humains donnent parfois des réponses différentes s'ils sont invités à fournir des étiquettes descriptives ou normatives sur les mêmes données.

Pour rassembler des étiquettes descriptives, les chercheurs demandent aux étiqueteurs d'identifier des caractéristiques factuelles : ce texte contient-il un langage obscène ? Pour rassembler des étiquettes normatives, les chercheurs donnent aux étiqueteurs une règle et demandent si les données enfreignent cette règle : ce texte enfreint-il la politique linguistique explicite de la plate-forme ?

Surpris par cette découverte, les chercheurs ont lancé une étude utilisateur pour creuser plus profondément. Ils ont rassemblé quatre ensembles de données pour imiter différentes politiques, comme un ensemble de données d'images de chiens qui pourraient être en violation de la règle d'un appartement contre les races agressives. Ensuite, ils ont demandé à des groupes de participants de fournir des étiquettes descriptives ou normatives.

Dans chaque cas, les étiqueteurs descriptifs ont été invités à indiquer si trois caractéristiques factuelles étaient présentes dans l'image ou le texte, par exemple si le chien semble agressif. Leurs réponses ont ensuite été utilisées pour formuler des jugements. (Si un utilisateur a déclaré qu'une photo contenait un chien agressif, la politique a été violée.) Les étiqueteurs ne connaissaient pas la politique relative aux animaux domestiques. D'autre part, les étiqueteurs normatifs ont reçu la politique interdisant les chiens agressifs, puis ont demandé si elle avait été violée par chaque image, et pourquoi.

Les chercheurs ont découvert que les humains étaient beaucoup plus susceptibles d'étiqueter un objet comme une violation dans le cadre descriptif. La disparité, qu'ils ont calculée en utilisant la différence absolue des étiquettes en moyenne, variait de 8 % sur un ensemble de données d'images utilisées pour juger les violations du code vestimentaire à 20 % pour les images de chiens.

"Bien que nous n'ayons pas explicitement testé pourquoi cela se produit, une hypothèse est que la façon dont les gens pensent aux violations des règles est peut-être différente de la façon dont ils pensent aux données descriptives. En général, les décisions normatives sont plus indulgentes", déclare Balagopalan.

Pourtant, les données sont généralement collectées avec des étiquettes descriptives pour former un modèle pour une tâche d'apprentissage automatique particulière. Ces données sont souvent réutilisées plus tard pour former différents modèles qui effectuent des jugements normatifs, comme des violations de règles.

Problèmes d'entraînement

Pour étudier les impacts potentiels de la réaffectation des données descriptives, les chercheurs ont formé deux modèles pour juger des violations de règles en utilisant l'un de leurs quatre paramètres de données. Ils ont formé un modèle à l'aide de données descriptives et l'autre à l'aide de données normatives, puis ont comparé leurs performances.

Ils ont constaté que si des données descriptives sont utilisées pour former un modèle, il sera moins performant qu'un modèle formé pour effectuer les mêmes jugements en utilisant des données normatives. Plus précisément, le modèle descriptif est plus susceptible de mal classer les entrées en prédisant à tort une violation de règle. Et la précision du modèle descriptif était encore plus faible lors de la classification d'objets sur lesquels les étiqueteurs humains n'étaient pas d'accord.

"Cela montre que les données sont vraiment importantes. Il est important de faire correspondre le contexte de formation au contexte de déploiement si vous formez des modèles pour détecter si une règle a été violée", déclare Balagopalan.

Il peut être très difficile pour les utilisateurs de déterminer comment les données ont été recueillies ; ces informations peuvent être enterrées dans l'annexe d'un document de recherche ou non révélées par une entreprise privée, dit Ghassemi.

L'amélioration de la transparence des ensembles de données est un moyen d'atténuer ce problème. Si les chercheurs savent comment les données ont été recueillies, alors ils savent comment ces données doivent être utilisées. Une autre stratégie possible consiste à affiner un modèle formé de manière descriptive sur une petite quantité de données normatives. Cette idée, connue sous le nom d'apprentissage par transfert, est quelque chose que les chercheurs veulent explorer dans des travaux futurs.

Ils souhaitent également mener une étude similaire auprès d'experts en étiquetage, tels que des médecins ou des avocats, pour voir si cela conduit à la même disparité d'étiquetage.

"La façon de résoudre ce problème est de reconnaître de manière transparente que si nous voulons reproduire le jugement humain, nous ne devons utiliser que les données qui ont été collectées dans ce cadre. Sinon, nous allons nous retrouver avec des systèmes qui vont avoir des modérations extrêmement dures, beaucoup plus dur que ce que les humains feraient. Les humains verraient des nuances ou feraient une autre distinction, alors que ces modèles ne le font pas », dit Ghassemi.

Plus d'information: Aparna Balagopalan, Juger les faits, juger les normes : la formation de modèles d'apprentissage automatique pour juger les humains nécessite une approche modifiée de l'étiquetage des données, Avancées scientifiques (2023). DOI : 10.1126/sciadv.abq0701. www.science.org/doi/10.1126/sciadv.abq0701

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement au MIT.

Citation: Les modèles d'IA ne parviennent pas à reproduire les jugements humains sur les violations des règles (10 mai 2023) récupéré le 13 mai 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.

Source

Écart d'étiquetage

Problèmes d'entraînement

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch