L’équipe développe un moyen plus rapide et moins cher de former de grands modèles de langage
L’équipe développe un moyen plus rapide et moins cher de former de grands modèles de langage

horloge
Crédit : Pixabay/CC0 Domaine public

Une équipe de Stanford a développé Sophia, une nouvelle façon d'optimiser le pré-apprentissage de grands modèles de langage qui est deux fois plus rapide que les approches actuelles.

ChatGPT et d'autres applications qui s'appuient sur de grands modèles de langage (LLM) sont de plus en plus utilisés et attirent l'attention des médias. Mais une poignée de grandes entreprises technologiques dominent l'espace LLM car la préformation de ces modèles est extrêmement coûteuse, avec des estimations de coûts commençant à 10 millions de dollars et pouvant atteindre des dizaines ou des centaines de fois.

"Les grands modèles de langage ne sont pas très accessibles aux petites organisations ou aux groupes universitaires", explique Hong Liu, étudiant diplômé en informatique à l'Université de Stanford.

Pour changer cela, Liu et ses collègues ont entrepris d'améliorer les méthodes d'optimisation LLM actuelles. Le résultat : une approche appelée Sophia qui réduit de moitié le temps de préformation. Les détails de cette approche sont publiés sur le arXiv serveur de préimpression.

Optimisation de l'optimisation

Pour mieux optimiser la préformation LLM, Liu et ses collègues, dont le boursier postdoctoral de Stanford Zhiyuan Li, l'ingénieur de recherche de Stanford David Hall, le professeur assistant en informatique Tengyu Ma et le professeur agrégé Percy Liang, ont utilisé deux astuces. La première, connue sous le nom d'estimation de courbure, n'est pas nouvelle, mais l'équipe de Stanford a trouvé un moyen de la rendre plus efficace.

Pour comprendre leur approche, considérons une chaîne de montage en usine. Pour fonctionner efficacement, le directeur d'usine doit optimiser le nombre d'étapes nécessaires pour transformer les matières premières en un produit final et doit comprendre et gérer de manière appropriée la charge de travail à chaque étape de la chaîne.

Il en va de même pour la préformation d'un LLM. Ces modèles ont des millions, voire des milliards de paramètres que Liu compare aux ouvriers d'usine s'efforçant d'atteindre les mêmes objectifs. L'une des propriétés de ces paramètres est leur courbure, que Liu considère comme la vitesse maximale qu'ils peuvent atteindre à mesure qu'ils progressent vers l'objectif final d'un LLM pré-entraîné. Dans la métaphore de l'usine, la courbure s'apparente à la charge de travail d'un ouvrier d'usine.

Si un programme d'optimisation peut estimer cette courbure (charge de travail), il peut rendre la préformation LLM plus efficace. Le problème est le suivant : estimer la courbure avec les méthodes existantes est remarquablement difficile et coûteux. "En fait, cela coûte plus cher que de faire le travail réel sans faire de prédictions de courbure", explique Liu. C'est en partie pourquoi les approches actuelles de pointe pour optimiser la préformation LLM (Adam et ses variantes) renoncent à l'étape d'estimation de la courbure.

Pourtant, Liu et ses collègues ont remarqué une possible inefficacité des méthodes antérieures qui utilisaient l'estimation paramétrique de la courbure : les chercheurs antérieurs ont mis à jour leurs estimations de la courbure à chaque étape de l'optimisation. L'équipe de Stanford s'est demandé si elle pouvait rendre le processus plus efficace en diminuant le nombre de mises à jour.

Pour tester cette idée, l'équipe de Stanford a conçu Sophia pour estimer la courbure des paramètres seulement environ toutes les 10 étapes. "Cela s'est avéré être une énorme victoire", a déclaré Liu.

La deuxième astuce d'optimisation de l'équipe, appelée écrêtage, résout un problème connexe : le problème de l'estimation inexacte de la courbure. "Si l'estimation est erronée, c'est comme donner encore plus de travail à des gens qui ont des emplois difficiles. Cela rend les choses pires que s'il n'y avait pas d'estimation du tout."

L'écrêtage empêche cela en définissant un seuil ou une estimation de courbure maximale. "Dans notre métaphore de l'usine, c'est comme fixer une limite de charge de travail pour tous les employés", explique Liu. Une autre métaphore souvent appliquée à l'optimisation est un paysage de collines et de vallées où le but est de se retrouver dans la vallée la plus basse. Sans coupure, dit Liu, il est possible d'atterrir sur une selle entre deux montagnes. "En optimisation, ce n'est pas là où vous voulez être", dit-il.

Tester Sophia et passer à l'échelle

Liu et ses collègues ont utilisé Sophia pour pré-entraîner un LLM relativement petit en utilisant la même taille de modèle et la même configuration que celles utilisées pour créer le GPT-2 d'OpenAI.

La combinaison de l'estimation de la courbure et de l'écrêtage de Sophia a permis à l'optimisation de la pré-formation LLM de passer en douceur à la vallée la plus basse en deux fois moins d'étapes et moitié moins de temps qu'Adam.

"L'adaptabilité de Sophia la distingue d'Adam", dit Liu. "Il est plus difficile pour Adam de gérer des paramètres avec des courbures hétérogènes car il ne peut pas les prédire à l'avance."

C'est aussi la première fois en neuf ans que quelqu'un a montré une amélioration substantielle par rapport à Adam sur la préformation du modèle linguistique, dit Liu. "Cela pourrait signifier une énorme réduction du coût de la formation de grands modèles du monde réel." Et à mesure que les modèles évoluent, les avantages de Sophia ne devraient qu'augmenter, dit-il.

Ensuite, Liu et ses collègues espèrent développer un LLM plus important en utilisant Sophia. Il espère également voir Sophia appliquée à d'autres domaines de l'apprentissage automatique tels que les modèles de vision par ordinateur ou les modèles multimodaux. "Il faudrait du temps et des ressources pour déplacer Sophia vers un nouveau domaine, mais comme il s'agit d'un logiciel open source, la communauté pourrait certainement le faire."

Plus d'information: Hong Liu et al, Sophia : Un optimiseur stochastique évolutif de second ordre pour la pré-formation du modèle linguistique, arXiv (2023). DOI : 10.48550/arxiv.2305.14342

Informations sur la revue : arXiv
Fourni par l'Université de Stanford

Citation: L'équipe développe un moyen plus rapide et moins cher de former de grands modèles de langage (2023, 3 juillet) récupéré le 4 juillet 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top