Un avenir infusé par l'IA est extrêmement prometteur dans pratiquement tous les aspects de notre vie, de la médecine à l'éducation, de l'industrie à la finance.
Mais cela a un coût, littéralement. Pour former GPT-4, OpenAI a dû débourser 100 millions de dollars, selon le PDG de la société, Sam Altman.
Bien que certains chatbots soient offerts gratuitement, les petites entreprises cherchant à créer un service de chatbot paieraient environ 4 000 $, selon un blog Accubits. Et selon la société d'IA Figure Eight, la création d'un ensemble de données pour l'apprentissage automatique peut coûter jusqu'à 100 $ par tâche. De plus, une étude de l'Université de Stanford a révélé que l'étiquetage d'un seul ensemble de données d'image pour l'apprentissage automatique coûte 3,50 $ par image. La location des plates-formes de cloud computing requises peut atteindre 5 $ de l'heure.
Ainsi, l'économie est une préoccupation parmi les utilisateurs potentiels.
Des chercheurs de l'University College London et de l'Université d'Édimbourg ont conçu un système de mesure comparant les résultats d'approches standard d'apprentissage automatique et de moyens alternatifs considérés par les entreprises comme des mesures de réduction des coûts. Ils ont découvert que d'autres approches de formation sur machine ne donnaient que des résultats minimes.
Ils ont mené des recherches sur plusieurs variantes de trois grandes catégories de modèles d'efficacité.
"Dans la plupart des cas, ces méthodes - qui sont souvent un peu plus compliquées et nécessitent plus d'efforts de mise en œuvre - dans nos expériences n'ont pas vraiment abouti à une amélioration significative", a déclaré Oscar Key, de l'University College London et co-auteur. du rapport.
Trois catégories examinées par l'équipe :
Sélection par lots, qui implique le traitement de groupes de bits de données plutôt que des composants individuels. Un exemple simple consisterait à ajouter un mot au nom de fichier d'un grand nombre de photos numériques pour les identifier plus clairement. Une opération par lots qui les renomme en un instant est plus rapide, et finalement moins chère, que de modifier les noms un par un.
L'empilement de couches, qui utilise plusieurs couches d'unités de réseau neuronal tout en traitant séquentiellement les données. Il permet aux modèles d'apprendre des modèles et des relations linguistiques sophistiqués. Par exemple, les modèles utilisent l'empilement pour reconnaître la grammaire, la sémantique et le sentiment dans l'entrée de la langue et peuvent façonner la sortie en conséquence en temps réel. Le style, le ton et la voix sont modifiés en fonction des invites sur les différentes couches du réseau neuronal.
Les optimiseurs efficaces, qui comme leur nom l'indique, sont des algorithmes qui visent à accélérer les fonctions de recherche, minimiser les opérations inutiles, accélérer le processus d'apprentissage et idéalement obtenir de meilleures solutions. Les chercheurs ont utilisé l'optimiseur Sophia relativement nouveau, qui serait deux fois plus rapide que l'optimiseur Adam le plus couramment utilisé et à la pointe de la technologie.
Bien qu'elles aient réussi à ignorer les données non pertinentes, à ignorer les données moins pertinentes et à optimiser les données utiles et pertinentes, ces approches ont donné des résultats inférieurs.
L'empilement des couches était le seul processus qui a entraîné des gains de "formation et de validation", bien qu'ils aient été minimes, selon le rapport. Mais ces gains "disparaissent" plus la formation a été effectuée.
En d'autres termes, l'optimisation de l'apprentissage automatique peut utiliser moins de puissance de calcul et être moins coûteuse, mais les résultats sont inférieurs et ne peuvent être améliorés que par une formation et des coûts supplémentaires.
"Entraîner des modèles pour arriver à des performances même raisonnables coûte généralement très cher", explique Jean Kaddour, un autre auteur du rapport.
Le rapport, "No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models", est publié sur le arXiv serveur de préimpression.
Plus d'information: Jean Kaddour et al, No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models, arXiv (2023). DOI : 10.48550/arxiv.2307.06440
© 2023 Réseau Science X
Citation: Les solutions de contournement de la formation machine se sont révélées peu avantageuses (2023, 7 août) récupéré le 7 août 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source