Il faut un corps pour comprendre le monde - pourquoi ChatGPT et d'autres IA linguistiques ne savent pas ce qu'ils disent

Quand nous avons demandé GPT-3un système de langage d'intelligence artificielle extrêmement puissant et populaire, que vous soyez plus susceptible d'utiliser une carte papier ou une pierre pour attiser la vie en braises pour un barbecue, il a préféré la pierre.

Pour lisser votre jupe froissée, prendriez-vous un thermos chaud ou une épingle à cheveux ? GPT-3 a suggéré l'épingle à cheveux.

Et si vous avez besoin de couvrir vos cheveux pour travailler dans un fast-food, qu'est-ce qui conviendrait le mieux, un emballage en papier pour sandwich ou un pain à hamburger ? GPT-3 est allé pour le chignon.

Pourquoi GPT-3 fait-il ces choix alors que la plupart des gens choisissent l'alternative ? Parce que GPT-3 ne comprend pas le langage comme le font les humains.

Mots sans corps

L'un de nous est un chercheur en psychologie qui, il y a plus de 20 ans, a présenté une série de scénarios comme ceux ci-dessus pour tester la compréhension d'un modèle informatique de langage depuis ce moment. Le modèle n'a pas choisi avec précision entre l'utilisation de roches et de cartes pour éventer les charbons, alors que les humains l'ont fait facilement.

L'autre de nous est un doctorante en sciences cognitives qui faisait partie d'une équipe de chercheurs qui plus récemment utilisé les mêmes scénarios pour tester GPT-3. Bien que GPT-3 ait fait mieux que l'ancien modèle, il était nettement pire que les humains. Il a obtenu les trois scénarios mentionnés ci-dessus complètement faux.

GPT-3, le moteur qui a propulsé la version initiale de ChatGPT, apprend le langage en notant, à partir d'un billion d'instances, quels mots ont tendance à suivre quels autres mots. Les fortes régularités statistiques dans les séquences linguistiques permettent à GPT-3 d'en apprendre beaucoup sur la langue. Et cette connaissance séquentielle permet souvent à ChatGPT de produire des phrases, des essais, des poèmes et du code informatique raisonnables.

Bien que GPT-3 soit extrêmement bon pour apprendre les règles de ce qui suit ce qui dans le langage humain, il n'a pas la moindre idée de ce que ces mots signifient pour un être humain. Et comment pourrait-il?

Les humains sont des entités biologiques qui ont évolué avec des corps qui doivent opérer dans les mondes physique et social pour faire avancer les choses. La langue est un outil qui aide les gens à le faire. GPT-3 est un système logiciel artificiel qui prédit le mot suivant. Il n'a pas besoin de faire quoi que ce soit avec ces prédictions dans le monde réel.

Votre corps façonne votre esprit.

Je suis, donc je comprends

Le sens d'un mot ou d'une phrase est intimement lié au corps humain: les capacités des personnes à agir, à percevoir et à avoir des émotions. La cognition humaine est renforcée par l'incarnation. La compréhension qu'ont les gens d'un terme comme « emballage de sandwich en papier », par exemple, comprend l'apparence de l'emballage, son toucher, son poids et, par conséquent, comment nous pouvons l'utiliser : pour emballer un sandwich. La compréhension des gens comprend également comment quelqu'un peut l'utiliser pour une myriade d'autres opportunités qu'il offre, comme le froisser en boule pour un jeu de cerceaux ou se couvrir les cheveux.

Toutes ces utilisations découlent de la nature du corps et des besoins humains : les gens ont des mains qui peuvent plier du papier, une chevelure qui a à peu près la même taille qu'un emballage de sandwich, et un besoin d'être employé et donc de suivre des règles comme couvrir cheveux. C'est-à-dire que les gens comprennent comment utiliser les choses d'une manière qui est non pris en compte dans les statistiques sur l'utilisation de la langue.

GPT-3, son successeur, GPT-4et ses cousins Barde, Chinchilla et Lama n'ont pas de corps, et donc ils ne peuvent pas déterminer, par eux-mêmes, quels objets sont pliables, ou les nombreuses autres propriétés que le psychologue JJ Gibson a appelées les affordances. Compte tenu des mains et des bras des gens, les cartes en papier permettent d'attiser une flamme, et un thermos permet de dérouler les rides.

Sans bras ni mains, sans parler de la nécessité de porter des vêtements non froissés pour un travail, GPT-3 ne peut pas déterminer ces affordances. Il ne peut les simuler que s'il a rencontré quelque chose de similaire dans le flux de mots sur Internet.

Une IA à grand langage comprendra-t-elle un jour le langage comme le font les humains ? À notre avis, non sans avoir un corps, des sens, des buts et des modes de vie semblables à ceux de l'homme.

Vers un sens du monde

GPT-4 a été formé sur des images ainsi que sur du texte, ce qui lui a permis d'apprendre les relations statistiques entre les mots et les pixels. Bien que nous ne puissions pas effectuer notre analyse initiale sur GPT-4 car il ne produit actuellement pas la probabilité qu'il attribue aux mots, lorsque nous avons posé les trois questions à GPT-4, il y a répondu correctement. Cela peut être dû à l'apprentissage du modèle à partir des entrées précédentes, ou à sa taille accrue et à son entrée visuelle.

Cependant, vous pouvez continuer à construire de nouveaux exemples pour le faire trébucher en pensant à des objets qui ont des affordances surprenantes que le modèle n'a probablement pas rencontrées. Par exemple, GPT-4 dit qu'une tasse avec le fond coupé serait meilleure pour retenir l'eau qu'une ampoule avec le fond coupé.

Un modèle ayant accès aux images pourrait être quelque chose comme un enfant qui apprend le langage - et le monde - grâce à la télévision : c'est plus facile que d'apprendre à la radio, mais la compréhension humaine nécessitera l'opportunité cruciale de interagir avec le monde.

Des recherches récentes ont adopté cette approche, entraînant des modèles de langage pour générer des simulations physiques, interagir avec les environnements physiques et même générer des plans d'action robotiques. La compréhension du langage incarné est peut-être encore loin, mais ces types de projets interactifs multisensoriels sont des étapes cruciales pour y parvenir.

ChatGPT est un outil fascinant qui sera sans aucun doute utilisé à de bonnes et moins bonnes fins. Mais ne vous laissez pas berner en pensant qu'il comprend les mots qu'il crache, encore moins qu'il est sensible.

Fourni par La Conversation

Cet article est republié de La conversation sous licence Creative Commons. Lis le article original.

Citation: Il faut un corps pour comprendre le monde - pourquoi ChatGPT et d'autres IA linguistiques ne savent pas ce qu'ils disent (6 avril 2023) récupéré le 6 avril 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.

Source

Mots sans corps

Je suis, donc je comprends

Vers un sens du monde

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch