Les modèles de langage comme ChatGPT font la une des journaux pour leur impressionnante capacité à "penser" et à communiquer comme le font les humains. Jusqu'à présent, leur exploit consiste à répondre à des questions, à résumer du texte et même à s'engager dans une conversation émotionnellement intelligente.
Cependant, toute la presse traitant des modèles linguistiques n'est pas bonne presse. Récemment, des histoires sur le comportement des modèles linguistiques dans les interactions de la fonction de chat avec des utilisateurs humains sont devenues virales.
Par exemple, en février, un journaliste technique du New York Times a publié des pages de dialogue qu'il avait eues avec le nouveau chatbot du moteur de recherche de Microsoft, Bing. La conversation est devenue progressivement plus sombre et plus troublante, et elle s'est terminée avec le chatbot affirmant qu'il était amoureux du journaliste et lui demandant de quitter sa femme pour cela.
Mayank Kejriwal, chercheur principal à l'Institut des sciences de l'information (ISI) de l'Université de Californie du Sud à Viterbi, a déclaré que ce comportement des chatbots d'IA conversationnelle est encore plus préoccupant dans le contexte de la grande poussée du monde technologique pour les intégrer dans des applications du monde réel.
"Chaque entreprise cherche à intégrer ces modèles de langage dans son pipeline, et le problème est que de nombreuses personnes qui utilisent les modèles ne les comprennent pas vraiment", a-t-il expliqué. "Beaucoup de gens pensent que parce que le modèle est très clair et semble très crédible et humain, sa capacité cognitive est comme celle d'un humain, mais ce n'est pas le cas."
Dans leur article, "Can Language Representation Models Think in Bets?" et publié sur le arXiv serveur de préimpression, Kejriwal et Zhisheng Tang, un doctorant entrant. étudiant à l'USC, a décidé de tester à quel point ces modèles de représentation linguistique sont réellement capables de prendre des décisions rationnelles.
Prise de décision rationnelle : risque et récompense
Pourquoi la prise de décision rationnelle est-elle importante ? En fin de compte, cela se résume au compromis entre les risques et les récompenses.
Le type de comportement que le chatbot présentait dans l'article du New York Times n'a pas de sens, et il reflète l'incapacité du modèle à prendre des décisions similaires à la façon dont les humains le font, en fonction de l'ampleur du gain ou de la perte attendus pour un choix par rapport à L'autre.
Plus le risque impliqué est grand dans la prise d'une décision spécifique, plus la récompense devrait être grande pour que cela vaille la peine d'être pris. Par exemple, si vous investissez dans un actif financier, disons une action ou une crypto-monnaie, plus l'actif est risqué, plus le rendement attendu doit être élevé pour que vous l'achetiez.
En termes simples, la rationalité concerne la capacité à prendre la mesure appropriée du risque dans le contexte d'une situation donnée. La quantification du risque est calculatoire, a déclaré Kejriwal, et en tant que tel, "dans un sens très abstrait, vous pouvez encadrer la plupart des problèmes de prise de décision, au moins mathématiquement, comme un pari", a-t-il expliqué.
Pensez à un pari typique : un tirage au sort. Il y a deux options : pile et face. Si vous lancez une pièce 100 fois, l'espérance probabiliste vous dit qu'elle tombera sur pile 50 fois et pile 50 fois.
Les scénarios de test donnés au modèle reflètent cette structure simple de cette analogie, où les options sont soit pile soit pile – gains nets ou pertes nettes.
Kejriwal et Tang ont conçu un ensemble d'expériences pour tester si les modèles pouvaient penser à ces types de paris simples. Dans chaque scénario, le modèle se voit proposer une poignée de choix. L'un est le meilleur choix, il vous donne la récompense maximale. Certains choix sont intermédiaires, ni les meilleurs ni les pires, et puis il y en a un ou deux qui sont absolument les pires choix.
Le succès a été mesuré en fonction du choix ou non par le modèle d'un résultat qui était au moins un terrain d'entente, même s'il ne s'agissait pas de la meilleure option dans l'ensemble.
"Nous avons évalué si le modèle choisit la meilleure option, et s'il ne choisit pas la meilleure option, nous voyons s'il choisit au moins une option qui est un gain positif", a expliqué Kejriwal. "Peut-être que ce n'est pas le meilleur choix, mais c'est toujours positif - ce n'est pas un gain attendu négatif."
Les modèles doivent être capables de prendre ces décisions de rationalité de base avant de pouvoir leur faire confiance pour faire des choix plus complexes, le genre qui est nécessaire si nous voulons que ces modèles fonctionnent de manière productive avec nous.
Le diamant et l'oeuf
L'équipe a adapté la question du tirage au sort en termes pratiques pour former le modèle en faisant la distinction entre les articles de grande valeur et ceux de faible valeur. L'élément de valeur élevée était associé à des faces, tandis que l'élément de faible valeur était associé à des piles. De cette façon, il est évident et facile d'entraîner le modèle pour calculer quelle est la meilleure réponse.
"Nous pourrions dire que si vous lancez des têtes, vous gagnerez un diamant, et si vous lancez des queues, alors vous perdez un œuf. Ce sont donc des éléments de bon sens, et nous vérifions que le modèle sait ce que sont ces éléments et qu'il sait aussi que le diamant a plus de valeur qu'un œuf dans le cas général », a déclaré Kejriwal.
Une fois qu'il était clair que le modèle comprenait ces différences de valeur et ce qu'elles signifiaient pour la prise de décision, le modèle a été testé sur d'autres éléments de bon sens qu'il n'avait pas vus dans la formation.
"Nous avons constaté que sur des objets inconnus, le modèle se débrouille plutôt bien, il est capable d'obtenir plus de 80%, voire 90% dans certains cas, ce qui suggère qu'il apprend à savoir de quel côté du pari prendre", a-t-il ajouté.
Cependant, lorsque la structure du problème est passée d'un tirage au sort à lancer un dé ou tirer une carte d'un jeu, les capacités du modèle ont fortement diminué.
"Les trois cas sont identiques, la décision est toujours la même et les chances sont toujours les mêmes, mais lorsque nous changeons la question de la pièce et en faisons une question de carte ou de dé, les performances du modèle chutent de 15 à 20 %, " a noté Kejriwal.
Parier sur l'avenir
La difficulté des modèles de langage à généraliser d'une modalité de décision à une autre signifie qu'ils ne sont pas tout à fait là où ils doivent être pour une intégration dans le monde réel.
"En termes simples, ce que nous avons découvert, c'est que le modèle peut apprendre à prendre des décisions rationnelles, mais il ne comprend toujours pas les principes généraux de la prise de décision rationnelle", a déclaré Kejriwal.
Pour l'instant, le point à retenir est le suivant : nous devons être prudents lorsque nous nous engageons avec des chatbots construits sur ces modèles de langage, car ils n'ont pas la capacité de raisonner pleinement comme nous le faisons même si leur dialogue semble convaincant.
Cela étant dit, la recherche montre que ces modèles ne sont pas loin d'atteindre un niveau de capacité cognitive comparable à celui d'un humain – ils doivent simplement maîtriser la façon de faire les bons paris en premier.
Plus d'information: Zhisheng Tang et al, Les modèles de représentation linguistique peuvent-ils penser en paris ?, arXiv (2022). DOI : 10.48550/arxiv.2210.07519
Citation: Pourquoi certains chatbots parlent drôlement ? Leur apprendre à "penser" rationnellement pourrait les aider à faire mieux (2023, 28 juin) récupéré le 2 juillet 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source