Une étude indique que les données de l’IA contaminent l’apport humain vital
Une étude indique que les données de l’IA contaminent l’apport humain vital

télétravailleur
Crédit : domaine public Unsplash/CC0

Au tournant de ce siècle, Jeff Bezos a popularisé l'utilisation de Turcs mécaniques - des travailleurs mal rémunérés travaillant à distance avec peut-être des milliers d'autres sur de minuscules parties de projets informatiques plus importants - pour assurer une perspective humaine sur des tâches pour la plupart simples qui se sont avérées déroutantes pour les ordinateurs. Il a qualifié ce mélange de puissance cérébrale humaine et numérique d'"intelligence artificielle artificielle".

Environ un quart de million de personnes sont employées sur le marché Mechanical Turk d'Amazon, l'une des nombreuses sources fournissant de tels services.

Cette semaine, des chercheurs de l'EPFL, une université basée en Suisse, ont rapporté que les Turcs qui avaient fourni une importante contribution humaine s'appuient désormais sur le contenu généré par l'IA pour accomplir leurs tâches. Ils ont surnommé ce phénomène "l'intelligence artificielle artificielle artificielle".

Le terme peut évoquer des sourires, mais les chercheurs disent que les résultats soulèvent de sérieuses inquiétudes.

Les travailleurs qui exploitent les générateurs d'IA pour accomplir leurs tâches "réduiraient considérablement l'utilité des données externalisées", a déclaré le chercheur Veniamin Veselovsky. L'article, "Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks", a été publié sur le arXiv serveur de pré-impression le 13 juin.

Alors que les grands modèles de langage excellent dans le traitement des données de formation, l'apport humain est toujours supérieur pour certaines tâches. Les humains étiquettent les données saisies dans les modèles, décrivent les images et répondent aux écrans CAPTCHA plus efficacement que les ordinateurs.

"Il est tentant de s'appuyer sur le crowdsourcing pour valider les sorties de grands modèles de langage ou pour créer des données humaines de référence à des fins de comparaison", a déclaré Veselovsky. "Mais que se passerait-il si les crowd workers eux-mêmes utilisaient des LLM… afin d'augmenter leur productivité, et donc leurs revenus, sur les plateformes de crowdsourcing ?"

Une telle entrée contaminerait le pool de données et, si elle n'était pas traitée, pourrait remettre en question la fiabilité des opérations basées sur l'IA.

Le terme "turc" est dérivé d'un "robot" maître d'échecs du XVIIIe siècle qui a vaincu des joueurs dans toute l'Europe. Napoléon et Benjamin Franklin étaient parmi les vaincus. Les joueurs sans méfiance n'ont jamais su qu'un expert des échecs humain était caché sous les planches de la machine.

Le crowdsourcing avec les Turcs des temps modernes est devenu une industrie d'un milliard de dollars. Sa réputation a été ternie par les salaires notoirement bas que certaines entreprises paient à leurs travailleurs. Les Turcs ne gagnent que 2 à 5 dollars de l'heure.

Mais l'industrie est menacée par l'adoption brutale de grands modèles de langage. Selon une étude récente, un modèle turbo ChatGPT 3.5 s'attaquant aux affectations de classification s'est avéré nettement plus performant que les travailleurs de foule à environ un vingtième du coût.

Les travailleurs seront confrontés à une pression accrue pour produire plus et le faire plus rapidement, ce qui pourrait amener ces travailleurs à dépendre davantage des ressources de l'IA.

Sur la base d'une étude limitée sur l'utilisation de grands modèles linguistiques par les travailleurs de MTurk, l'opération de crowdsourcing d'Amazon, les chercheurs de l'EPFL ont estimé que 33% à 46% des missions des travailleurs étaient réalisées à l'aide de grands modèles linguistiques.

"Les grands modèles de langage deviennent de plus en plus populaires de jour en jour, et les modèles multimodaux, prenant en charge non seulement le texte, mais également l'entrée et la sortie d'image et de vidéo, sont en augmentation", a déclaré Veselovsky. "Avec cela, nos résultats devraient être considérés comme le" canari dans la mine de charbon "qui devrait rappeler aux plateformes, aux chercheurs et aux travailleurs de foule de trouver de nouvelles façons de garantir que les données humaines restent humaines."

Plus d'information: Veniamin Veselovsky et al, Intelligence artificielle artificielle : les travailleurs de la foule utilisent largement de grands modèles de langage pour les tâches de production de texte, arXiv (2023). DOI : 10.48550/arxiv.2306.07899

Informations sur la revue : arXiv

© 2023 Réseau Science X

Citation: Une étude indique que les données de l'IA contaminent l'apport humain vital (2023, 20 juin) récupéré le 20 juin 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top