ChatGPT a fait les gros titres dans le monde entier grâce à sa capacité à rédiger des essais, des e-mails et du code informatique bien faits en fonction de quelques questions d'un utilisateur.
Maintenant, une équipe dirigée par le MIT signale un système qui pourrait conduire à des programmes d'apprentissage automatique de plusieurs ordres de grandeur plus puissants que celui derrière ChatGPT. De plus, le système qu'ils ont développé pourrait utiliser plusieurs ordres de grandeur moins d'énergie que les superordinateurs de pointe derrière les modèles d'apprentissage automatique d'aujourd'hui.
Dans le numéro du 17 juillet de Photonique de la nature, les chercheurs rapportent la première démonstration expérimentale du nouveau système, qui effectue ses calculs en fonction du mouvement de la lumière plutôt que des électrons à l'aide de centaines de lasers à l'échelle du micron. Avec le nouveau système, l'équipe signale une amélioration de plus de 100 fois de l'efficacité énergétique et une amélioration de 25 fois de la densité de calcul, une mesure de la puissance d'un système, par rapport aux ordinateurs numériques de pointe pour l'apprentissage automatique. .
Dans le document, l'équipe cite également « sensiblement plusieurs autres ordres de grandeur pour une amélioration future ». En conséquence, poursuivent les auteurs, la technique "ouvre la voie aux processeurs optoélectroniques à grande échelle pour accélérer les tâches d'apprentissage automatique des centres de données aux dispositifs de périphérie décentralisés". En d'autres termes, les téléphones portables et autres petits appareils pourraient devenir capables d'exécuter des programmes qui ne peuvent actuellement être calculés que dans de grands centres de données.
De plus, étant donné que les composants du système peuvent être créés à l'aide de processus de fabrication déjà utilisés aujourd'hui, "nous nous attendons à ce qu'il puisse être mis à l'échelle pour une utilisation commerciale dans quelques années. Par exemple, les réseaux laser impliqués sont largement utilisés dans les téléphones portables. ID et communication de données », explique Zaijun Chen, premier auteur, qui a mené les travaux alors qu'il était associé postdoctoral au MIT dans le laboratoire de recherche en électronique et est maintenant professeur adjoint à l'Université de Californie du Sud.
Selon Dirk Englund, professeur associé au département de génie électrique et d'informatique (EECS) du MIT et responsable des travaux, "ChatGPT est limité dans sa taille par la puissance des superordinateurs d'aujourd'hui. Il n'est tout simplement pas économiquement viable d'entraîner des modèles qui sont beaucoup Notre nouvelle technologie pourrait permettre de passer à des modèles d'apprentissage automatique qui, autrement, ne seraient pas accessibles dans un avenir proche. »
Il poursuit : "Nous ne savons pas quelles capacités aura le ChatGPT de nouvelle génération s'il est 100 fois plus puissant, mais c'est le régime de découverte que ce type de technologie peut permettre." Englund est également chef du laboratoire de photonique quantique du MIT et est affilié au laboratoire de recherche en électronique (RLE) et au laboratoire de recherche sur les matériaux.
Un battement de tambour de progrès
Le travail actuel est la dernière réalisation d'un battement de tambour de progrès au cours des dernières années par Englund et nombre de ses collègues. Par exemple, en 2019 une équipe d'Englund a rapporté les travaux théoriques qui ont conduit à la démonstration actuelle. Le premier auteur de cet article, Ryan Hamerly, maintenant de RLE et NTT Research Inc, est également l'un des auteurs de l'article actuel.
D'autres co-auteurs de l'actuel Photonique de la nature papier sont Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein et Lamia Ateshian, tous de RLE; et Tobias Heuser, Niels Heermeier, James A. Lott et Stephan Reitzensttein de la Technische Universitat Berlin.
Les réseaux de neurones profonds (DNN) comme celui derrière ChatGPT sont basés sur d'énormes modèles d'apprentissage automatique qui simulent la façon dont le cerveau traite les informations. Cependant, les technologies numériques derrière les DNN d'aujourd'hui atteignent leurs limites alors même que le domaine de l'apprentissage automatique se développe. De plus, ils nécessitent d'énormes quantités d'énergie et sont largement confinés aux grands centres de données. Cela motive le développement de nouveaux paradigmes informatiques.
Les avantages de la lumière
L'utilisation de la lumière plutôt que des électrons pour exécuter des calculs DNN a le potentiel de briser les goulots d'étranglement actuels. Les calculs utilisant l'optique, par exemple, ont le potentiel d'utiliser beaucoup moins d'énergie que ceux basés sur l'électronique. De plus, avec l'optique, "vous pouvez avoir des bandes passantes beaucoup plus grandes", ou des densités de calcul, dit Chen. La lumière peut transférer beaucoup plus d'informations sur une zone beaucoup plus petite.
Mais les réseaux de neurones optiques (ONN) actuels présentent des défis importants. Par exemple, ils consomment beaucoup d'énergie car ils sont inefficaces pour convertir les données entrantes basées sur l'énergie électrique en lumière. De plus, les composants impliqués sont encombrants et occupent un espace important. Et bien que les ONN soient assez bons pour les calculs linéaires comme l'addition, ils ne sont pas bons pour les calculs non linéaires comme la multiplication et les instructions "if".
Dans les travaux en cours, les chercheurs introduisent une architecture compacte qui, pour la première fois, résout tous ces défis et deux autres simultanément. Cette architecture est basée sur des réseaux de pointe de lasers verticaux à émission de surface (VCSEL), une technologie relativement nouvelle utilisée dans des applications telles que la télédétection LiDAR et l'impression laser.
Les VCEL particuliers signalés dans le Photonique de la nature papier ont été développés par le groupe Reitzenstein de la Technische Universitat Berlin. "Il s'agissait d'un projet collaboratif qui n'aurait pas été possible sans eux", déclare Hamerly.
Logan Wright est professeur adjoint à l'Université de Yale qui n'a pas participé à la recherche actuelle. Wright déclare : « Le travail de Zaijun Chen et al. est une source d'inspiration, m'encourage, moi et probablement de nombreux autres chercheurs dans ce domaine, à penser que les systèmes basés sur des réseaux VCSEL modulés pourraient être une voie viable vers des réseaux de neurones optiques à grande échelle et à grande vitesse.
"Bien sûr, l'état de l'art ici est encore loin de l'échelle et du coût qui seraient nécessaires pour des appareils pratiquement utiles, mais je suis optimiste quant à ce qui peut être réalisé dans les prochaines années, surtout compte tenu du potentiel de ces doivent accélérer les systèmes d'IA à très grande échelle et très coûteux, comme ceux utilisés dans les systèmes textuels "GPT" populaires comme ChatGPT."
Chen, Hamerly et Englund ont déposé un brevet sur le travail.
Plus d'information: Zaijun Chen et al, Apprentissage en profondeur avec des réseaux de neurones VCSEL cohérents, Photonique de la nature (2023). DOI : 10.1038/s41566-023-01233-w
Citation: Un système informatique basé sur la lumière pourrait relancer la puissance des programmes d'apprentissage automatique de type ChatGPT (2023, 28 juillet) récupéré le 29 juillet 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source