À l’avenir, nous verrons moins de chatbots IA génériques comme ChatGPT et d’autres plus spécialisés, adaptés à nos besoins.
À l’avenir, nous verrons moins de chatbots IA génériques comme ChatGPT et d’autres plus spécialisés, adaptés à nos besoins.

À l'avenir, nous verrons moins de chatbots IA génériques comme ChatGPT et d'autres plus spécialisés, adaptés à nos besoins.
Crédit : Alexander Supertramp/Shutterstock

La technologie de l’IA se développe rapidement. ChatGPT est devenu le service en ligne à la croissance la plus rapide dans l'histoire. Google et Microsoft intègrent l'IA générative dans leurs produits. Et les dirigeants mondiaux adoptent avec enthousiasme l’IA comme outil de croissance économique.

À mesure que nous dépassons ChatGPT et Bard, nous verrons probablement les chatbots IA devenir moins génériques et plus spécialisés. Les IA sont limitées par les données auxquelles elles sont exposées afin de les rendre meilleures dans ce qu'elles font : dans ce cas, imiter la parole humaine et fournir aux utilisateurs des réponses utiles.

La formation ratisse souvent large, avec Des systèmes d’IA absorbant des milliers de livres et de pages Web. Mais un ensemble de données de formation plus sélectives et plus ciblées pourrait rendre les chatbots IA encore plus utiles pour les personnes travaillant dans des secteurs particuliers ou vivant dans certaines régions.

La valeur des données

Un facteur important dans cette évolution sera les coûts croissants liés à la collecte de données de formation pour les grands modèles de langage avancés (LLM), le type d'IA qui alimente ChatGPT. Les entreprises savent que les données sont précieuses : Meta et Google gagnent des milliards en vendant des publicités ciblées sur les données des utilisateurs. Mais la valeur des données est désormais en changeant. Meta et Google vendent des « insights » sur les données ; ils investissent dans l'analyse pour transformer de nombreux points de données en prédictions sur les utilisateurs.

Les données sont précieuses pour OpenAI, le développeur de ChatGPT, d'une manière subtilement différente. Imaginez un tweet : "Le chat était assis sur le tapis." Ce tweet n'a pas de valeur pour les annonceurs ciblés. Cela en dit peu sur un utilisateur ou ses intérêts. Peut-être que, d’un seul coup, cela pourrait suggérer un intérêt pour la nourriture pour chats et le Dr Suess.

Mais pour OpenAI, qui construit des LLM pour produire un langage de type humain, ce tweet est un exemple précieux du fonctionnement du langage humain. Un seul tweet ne peut pas apprendre à une IA à construire des phrases, mais des milliards de tweets, d’articles de blog, d’entrées Wikipédia, etc. le peuvent certainement. Par exemple, le LLM GPT-4 avancé a probablement été construit à partir de données extraites de X (anciennement Twitter), Reddit, Wikipedia et au-delà.

La révolution de l’IA change le modèle économique des organisations riches en données. Des sociétés comme Meta et Google ont été investir dans la recherche et le développement de l’IA depuis plusieurs années alors qu'ils tentent d'exploiter leurs ressources de données.

Organisations comme X et Reddit ont commencé à facturer aux tiers l’accès à l’API, le système utilisé pour récupérer les données de ces sites Web. Le grattage de données coûte aux entreprises comme X argent, car elles doit dépenser plus en puissance de calcul pour répondre aux requêtes de données.

À l’avenir, alors que des organisations comme OpenAI cherchent à créer des versions plus puissantes de son GPT LLM, elles seront confrontées à des coûts plus élevés pour obtenir des données. Une solution à ce problème pourrait être les données synthétiques.

Passer au synthétique

Les données synthétiques sont créé à partir de zéro par des systèmes d'IA pour former des systèmes d’IA plus avancés, afin qu’ils s’améliorent. Elles sont conçues pour effectuer la même tâche que les données d’entraînement réelles mais sont générées par l’IA.

C'est une idée nouvelle, mais elle se heurte à de nombreux problèmes. De bonnes données synthétiques doivent être assez différent des données originales il est basé sur afin de dire au modèle quelque chose de nouveau, tout en étant suffisamment similaire pour lui dire quelque chose de précis. Cela peut être difficile à réaliser. Où se trouvent les données synthétiques juste des copies convaincantes À partir de données du monde réel, les modèles d’IA qui en résultent peuvent avoir du mal à faire preuve de créativité, renforçant ainsi les préjugés existants.

Un autre problème est le Problème "Hapsburg AI". Cela suggère que la formation de l’IA sur des données synthétiques entraînera une baisse de l’efficacité de ces systèmes – d’où l’analogie utilisant la fameuse consanguinité de la famille royale des Habsbourg. Quelques études suggèrent que cela se produit déjà avec des systèmes comme ChatGPT.

L'une des raisons pour lesquelles ChatGPT est si efficace est qu'il utilise apprentissage par renforcement avec feedback humain (RLHF), où les gens évaluent ses résultats en termes d’exactitude. Si les données synthétiques générées par une IA comportent des inexactitudes, les modèles d’IA entraînés sur ces données seront eux-mêmes inexacts. La demande de retour d’information humain pour corriger ces inexactitudes est donc susceptible d’augmenter.

Cependant, alors que la plupart des gens seraient en mesure de dire si une phrase est grammaticalement exacte, moins nombreux seraient en mesure de commenter son exactitude factuelle, en particulier lorsque le résultat est technique ou spécialisé. Les résultats inexacts sur des sujets spécialisés sont moins susceptibles d’être détectés par le RLHF. Si les données synthétiques signifient qu'il y a davantage d'inexactitudes à détecter, la qualité des LLM à usage général pourrait stagner ou décliner même si ces modèles « apprennent » davantage.

Petits modèles de langage

Ces problèmes contribuent à expliquer certaines tendances émergentes en matière d’IA. Les ingénieurs de Google ont révélé que peu de choses empêchent les tiers de recréer des LLM comme GPT-3 ou LaMDA AI de Google. De nombreuses organisations pourraient créer leurs propres systèmes d’IA internes, en utilisant leurs propres données spécialisées, pour atteindre leurs propres objectifs. Ceux-ci seront probablement plus précieux pour ces organisations que ChatGPT à long terme.

Récemment, le gouvernement japonais a souligné que l'élaboration d'un Version japonaise de ChatGPT est potentiellement intéressant pour leur stratégie d'IA, car ChatGPT n'est pas suffisamment représentatif du Japon. L'entreprise de logiciels SAP a récemment lancé sa « feuille de route » pour l'IA offrir des capacités de développement d’IA aux organisations professionnelles. Cela permettra aux entreprises de créer plus facilement leurs propres versions sur mesure de ChatGPT.

Des consultants tels que McKinsey et KPMG explorent la formation de modèles d’IA à des « fins spécifiques ». Des guides sur la façon de créer des versions privées et personnelles de ChatGPT peuvent être facilement trouvés en ligne. Systèmes open source, tels que GPT4Tousexiste déjà.

À mesure que les défis de développement, associés aux obstacles réglementaires potentiels, augmentent pour les LLM génériques, il est possible que l’avenir de l’IA soit constitué de nombreux petits modèles spécifiques plutôt que de grands modèles linguistiques. Les petits modèles de langage pourraient avoir des difficultés s'ils sont formés sur moins de données que des systèmes tels que GPT-4.

Mais ils pourraient également présenter un avantage en termes de RLHF, dans la mesure où peu de modèles de langage sont susceptibles d'être développés à des fins spécifiques. Les employés qui possèdent une connaissance approfondie de leur organisation et de ses objectifs peuvent fournir des commentaires beaucoup plus précieux à de tels systèmes d'IA, par rapport aux commentaires génériques pour un système d'IA générique. Cela pourrait permettre de surmonter les inconvénients liés à moins de données.

Fourni par La conversation

Cet article est republié à partir de La conversation sous licence Creative Commons. Lis le article original.La conversation

Citation: À l'avenir, nous verrons moins de chatbots IA génériques comme ChatGPT et des chatbots plus spécialisés adaptés à nos besoins (21 septembre 2023) récupéré le 24 septembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top