Le grand modèle de langage largement célébré d'OpenAI a été salué comme "tout simplement le meilleur chatbot d'intelligence artificielle jamais mis à la disposition du grand public" par Kevin Roose, auteur de "Futureproof : 9 règles pour les humains à l'ère de l'automatisation" et comme "l'une des plus grandes choses qui ait jamais été faite pour l'informatique" par le PDG de Nvidia, Jensen Huang.
ChatGPT est devenu si bon pour fournir des réponses naturelles aux demandes des utilisateurs que certains pensent qu'il a officiellement réussi le test de Turing, une mesure de longue date de la capacité d'une machine à atteindre l'intelligence humaine.
ChatGPT a obtenu les meilleurs centiles d'examens de réussite dans une myriade de domaines : mathématiques (89e), droit (90e) et GRE verbal (99e).
Et des chercheurs de la faculté de médecine de NYU ont rapporté début juillet 2023 que les conseils donnés par ChatGPT pour les questions liées aux soins de santé étaient presque indiscernables de ceux fournis par le personnel médical humain.
Mais les chercheurs de l'Université de Stanford et de l'Université de Californie à Berkeley ne sont pas tout à fait prêts à confier à ChatGPT toute prise de décision critique.
Faisant écho à un nombre croissant de préoccupations récemment exprimées par les utilisateurs, Lingjiao Chen, Matei Zaharia et James Zhu ont déclaré que les performances de ChatGPT n'étaient pas constantes. Dans certains cas, il s'aggrave.
Dans un article publié dans le arXiv serveur de préimpression le 18 juillet, les chercheurs ont déclaré que "les performances et le comportement de GPT-3.5 et GPT-4 varient considérablement" et que les réponses à certaines tâches "se sont considérablement dégradées avec le temps".
Ils ont noté des changements significatifs dans les performances sur une période de quatre mois, de mars à juin.
Les chercheurs se sont concentrés sur quelques domaines, notamment la résolution de problèmes mathématiques et la génération de code informatique.
En mars 2023, GPT-4 a atteint un taux de précision de 97,6 % lors de la résolution de problèmes concernant les nombres premiers. Ce taux a chuté à seulement 2,4 % lorsque le modèle mis à jour de juin 2023 a été utilisé, selon les chercheurs de Stanford.
ChatGPT a suscité de nombreux éloges pour sa capacité à aider les codeurs à résoudre les problèmes de programmation et de débogage. En mars, GPT-4 a répondu aux demandes des codeurs en complétant des scripts précis et prêts à l'emploi un peu plus de 50 % du temps. Mais en juin, le taux est tombé à 10 %. Chat-GPT-3.5 a également montré une baisse notable de la précision, passant de 22 % en mars à 2 % en juin.
Fait intéressant, ChatGPT-3.5 a montré des résultats presque opposés en mathématiques : n'atteignant qu'un taux de précision de 7,4 % dans la résolution de problèmes de nombres premiers en mars, la version mise à jour en juin a atteint un taux de 86,8 %.
Zhu a déclaré qu'il était difficile d'identifier une cause, bien qu'il semble évident que les modifications et les mises à niveau du système soient des facteurs.
"Nous ne comprenons pas entièrement ce qui cause ces changements dans les réponses de ChatGPT car ces modèles sont opaques", a déclaré Zhu. "Il est possible que le réglage du modèle pour améliorer ses performances dans certains domaines puisse avoir des effets secondaires inattendus en l'aggravant sur d'autres tâches."
Les théoriciens du complot qui ont remarqué une détérioration de certains résultats suggèrent qu'OpenAI expérimente des versions alternatives et plus petites des LLM comme mesure de réduction des coûts. D'autres pensent qu'OpenAI affaiblit intentionnellement GPT-4, de sorte que les utilisateurs frustrés seront plus disposés à payer pour l'accessoire LLM CoPilot de GitHub.
OpenAI rejette ces allégations. La semaine dernière, le vice-président produit d'OpenAI, Peter Welinder, a déclaré dans un tweet : "Nous n'avons pas rendu le GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente."
Il a suggéré une autre raison. "Lorsque vous l'utilisez plus intensément, vous commencez à remarquer des problèmes que vous n'aviez pas vus auparavant."
Pendant ce temps, certains observateurs méfiants de l'impact d'une "dérive" perturbatrice dans les résultats du modèle poussent OpenAI à divulguer les sources de matériel de formation, le code et d'autres éléments structurels derrière ChatGPG 4.0.
Sasha Luccioni de la société d'intelligence artificielle Hugging Face a expliqué : "Tous les résultats sur des modèles à source fermée ne sont ni reproductibles ni vérifiables, et par conséquent, d'un point de vue scientifique, nous comparons des ratons laveurs et des écureuils".
"Il n'appartient pas aux scientifiques de surveiller en permanence les LLM déployés", a-t-elle récemment déclaré à ARS Technica dans une interview. "C'est aux créateurs de modèles de donner accès aux modèles sous-jacents, au moins à des fins d'audit."
Plus d'information: Lingjiao Chen et al, Comment le comportement de ChatGPT change-t-il avec le temps ?, arXiv (2023). DOI : 10.48550/arxiv.2307.09009
© 2023 Réseau Science X
Citation: Est-ce que c'est une crise de croissance ou est-ce que ChatGPT est en train de devenir plus stupide ? (2023, 21 juillet) récupéré le 21 juillet 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source