AI News s'est entretenu avec Damian Bogunowicz, ingénieur en apprentissage automatique chez Magie Neuralepour faire la lumière sur l'approche innovante de l'entreprise en matière d'optimisation et d'inférence de modèles d'apprentissage en profondeur sur les processeurs.
L'un des principaux défis liés au développement et au déploiement de modèles d'apprentissage en profondeur réside dans leur taille et leurs exigences de calcul. Cependant, Neural Magic s'attaque à ce problème de front grâce à un concept appelé parcimonie composée.
La parcimonie composée combine des techniques telles que l'élagage non structuré, la quantification et la distillation pour réduire considérablement la taille des réseaux de neurones tout en maintenant leur précision.
« Nous avons développé notre propre environnement d'exécution sensible à la parcimonie qui exploite l'architecture CPU pour accélérer les modèles parcimonieux. Cette approche remet en question l'idée que les GPU sont nécessaires pour un apprentissage en profondeur efficace », explique Bogunowicz.
Bogunowicz a souligné les avantages de leur approche, soulignant que des modèles plus compacts conduisent à des déploiements plus rapides et peuvent être exécutés sur des machines à processeur omniprésentes. La capacité d'optimiser et d'exécuter efficacement des réseaux spécifiques sans s'appuyer sur du matériel spécialisé change la donne pour les praticiens de l'apprentissage automatique, leur permettant de surmonter les limites et les coûts associés à l'utilisation du GPU.
Interrogé sur la pertinence des réseaux de neurones clairsemés pour les entreprises, Bogunowicz a expliqué que la grande majorité des entreprises peuvent bénéficier de l'utilisation de modèles clairsemés.
En supprimant jusqu'à 90 % des paramètres sans affecter la précision, les entreprises peuvent réaliser des déploiements plus efficaces. Alors que des domaines extrêmement critiques comme la conduite autonome ou les avions autonomes peuvent nécessiter une précision maximale et une parcimonie minimale, les avantages des modèles clairsemés l'emportent sur les limites pour la majorité des entreprises.
Pour l'avenir, Bogunowicz a exprimé son enthousiasme quant à l'avenir des grands modèles de langage (LLM) et de leurs applications.
« Je suis particulièrement enthousiasmé par l'avenir des grands modèles linguistiques LLM. Mark Zuckerberg a discuté de l'activation des agents d'IA, agissant en tant qu'assistants personnels ou vendeurs, sur des plateformes comme WhatsApp », explique Bogunowicz.
Un exemple qui a retenu son attention est un chatbot utilisé par Académie Khan— un tuteur d'IA qui guide les étudiants pour résoudre des problèmes en leur fournissant des indices plutôt qu'en révélant des solutions. Cette application démontre la valeur que les LLM peuvent apporter au secteur de l'éducation, facilitant le processus d'apprentissage tout en permettant aux étudiants de développer des compétences en résolution de problèmes.
« Nos recherches ont montré que vous pouvez optimiser efficacement les LLM pour le déploiement du processeur. Nous avons publié un article de recherche sur SparseGPT qui démontre la suppression d'environ 100 milliards de paramètres à l'aide d'un élagage ponctuel sans compromettre la qualité du modèle », explique Bogunowicz.
"Cela signifie qu'il n'y aura peut-être pas besoin de clusters GPU dans l'avenir de l'inférence IA. Notre objectif est de fournir bientôt des LLM open source à la communauté et de permettre aux entreprises de contrôler leurs produits et modèles, plutôt que de compter sur de grandes entreprises technologiques.
Quant à l'avenir de Neural Magic, Bogunowicz a révélé deux développements passionnants qu'ils partageront lors de la prochaine AI & Big Data Expo Europe.
Tout d'abord, ils présenteront leur prise en charge de l'exécution de modèles d'IA sur des appareils périphériques, en particulier les architectures x86 et ARM. Cela élargit les possibilités d'applications d'IA dans diverses industries.
Deuxièmement, ils dévoileront leur plate-forme d'optimisation de modèles, Sparsify, qui permet l'application transparente d'algorithmes d'élagage, de quantification et de distillation de pointe via une application Web conviviale et de simples appels API. Sparsify vise à accélérer l'inférence sans sacrifier la précision, en fournissant aux entreprises une solution élégante et intuitive.
L'engagement de Neural Magic à démocratiser l'infrastructure d'apprentissage automatique en tirant parti des processeurs est impressionnant. Leur concentration sur la parcimonie composée et leurs progrès à venir dans le domaine de l'informatique de pointe démontrent leur dévouement à l'autonomisation des entreprises et des chercheurs.
Alors que nous attendons avec impatience les développements présentés à AI & Big Data Expo Europe, il est clair que Neural Magic est sur le point d'avoir un impact significatif dans le domaine de l'apprentissage en profondeur.
Vous pouvez regarder notre interview complète avec Bogunowicz ci-dessous:
(Photo par Google DeepMind sur Unsplash)
Magie Neurale est l'un des principaux sponsors de cette année Salon européen de l'IA et du Big Dataqui se tiendra à Amsterdam du 26 au 27 septembre 2023.
Visitez le stand de Neural Magic au stand n° 178 pour en savoir plus sur la manière dont l'entreprise permet aux organisations d'utiliser des modèles à forte charge de calcul de manière rentable et évolutive.
Source