
Une étude menée en collaboration entre Prolifique, Pomme de terreet le Université du Michigan a mis en lumière l'influence significative de la démographie des annotateurs sur le développement et la formation des modèles d'IA.
L'étude s'est penchée sur l'impact de l'âge, de la race et de l'éducation sur les données de formation des modèles d'IA, soulignant les dangers potentiels de l'enracinement des biais dans les systèmes d'IA.
"Les systèmes comme ChatGPT sont de plus en plus utilisés par les gens pour les tâches quotidiennes", explique le professeur adjoint David Jurgens de l'Université du Michigan School of Information.
« Mais sur quelles valeurs inculquons-nous au modèle formé ? Si nous continuons à prendre un échantillon représentatif sans tenir compte des différences, nous continuons à marginaliser certains groupes de personnes. »
Les systèmes d'apprentissage automatique et d'IA s'appuient de plus en plus sur l'annotation humaine pour former efficacement leurs modèles. Ce processus, souvent appelé «Human-in-the-loop» ou apprentissage par renforcement à partir de la rétroaction humaine (RLHF), implique que les individus examinent et catégorisent les sorties du modèle de langage pour affiner leurs performances.
L'une des conclusions les plus frappantes de l'étude est l'influence de la démographie sur le caractère offensant de l'étiquetage.
La recherche a révélé que différents groupes raciaux avaient des perceptions différentes de l'offense dans les commentaires en ligne. Par exemple, les participants noirs avaient tendance à évaluer les commentaires comme plus offensants par rapport aux autres groupes raciaux. L'âge a également joué un rôle, car les participants âgés de 60 ans ou plus étaient plus susceptibles de qualifier les commentaires d'offensants que les participants plus jeunes.
L'étude impliquait l'analyse de 45 000 annotations de 1 484 annotateurs et couvrait un large éventail de tâches, y compris la détection de l'offense, la réponse aux questions et la politesse. Il a révélé que les facteurs démographiques continuent d'avoir un impact même sur les tâches objectives comme la réponse aux questions. Notamment, la précision des réponses aux questions était affectée par des facteurs tels que la race et l'âge, reflétant les disparités en matière d'éducation et d'opportunités.
La politesse, un facteur important dans la communication interpersonnelle, a également été influencée par la démographie.
Les femmes avaient tendance à juger les messages moins polis que les hommes, tandis que les participants plus âgés étaient plus susceptibles d'attribuer des notes de politesse plus élevées. De plus, les participants ayant des niveaux d'éducation plus élevés se sont souvent vu attribuer des notes de politesse plus faibles et des différences ont été observées entre les groupes raciaux et les participants asiatiques.
Phelim Bradley, PDG et co-fondateur de Prolific, a déclaré :
"L'intelligence artificielle touchera tous les aspects de la société et il existe un réel danger que les préjugés existants soient intégrés à ces systèmes.
Cette recherche est très claire : qui annote vos données compte.
Quiconque construit et forme des systèmes d'IA doit s'assurer que les personnes qu'ils utilisent sont représentatives à l'échelle nationale en termes d'âge, de sexe et de race ou de préjugés, cela engendrera simplement plus de préjugés.
Alors que les systèmes d'IA s'intègrent de plus en plus dans les tâches quotidiennes, la recherche souligne l'impératif de traiter les biais dès les premières étapes du développement du modèle afin d'éviter d'exacerber les biais et la toxicité existants.
Vous pouvez trouver une copie complète du document ici (PDF)
(Photo par Bancs d'argile sur Unsplash)
Voir également: La reconnaissance faciale sujette aux erreurs conduit à une autre arrestation injustifiée

Vous voulez en savoir plus sur l'IA et le Big Data auprès des leaders de l'industrie ? Vérifier Salon de l'IA et du Big Data se déroulant à Amsterdam, en Californie et à Londres. L'événement complet est co-localisé avec Semaine de la transformation numérique.
Découvrez d'autres événements et webinaires technologiques d'entreprise à venir propulsés par TechForge ici.
Source