Microsoft dévoile la famille Phi-3 de modèles de langage compacts
Microsoft dévoile la famille Phi-3 de modèles de langage compacts

Microsoft a annoncé la famille Phi-3 de petits modèles de langage ouverts (SLM), les présentant comme les plus performants et les plus rentables de leur taille disponibles. L'approche de formation innovante développée par les chercheurs de Microsoft a permis aux modèles Phi-3 de surpasser les modèles plus grands en termes de langage, de codage et de tests mathématiques.

"Ce que nous allons commencer à voir n'est pas un passage du grand au petit, mais un passage d'une catégorie unique de modèles à un portefeuille de modèles où les clients ont la possibilité de prendre une décision sur le meilleur modèle pour leur scénario », a déclaré Sonali Yadav, chef de produit principal pour l'IA générative chez Microsoft.

Le premier modèle Phi-3, Phi-3-mini avec 3,8 milliards de paramètres, est désormais accessible au public en Catalogue de modèles Azure AI, Visage câlin, Ollamaet comme un NIM NVIDIA microservice. Malgré sa taille compacte, le Phi-3-mini surpasse les modèles deux fois plus grands. Des modèles Phi-3 supplémentaires comme le Phi-3-small (paramètres 7B) et le Phi-3-medium (paramètres 14B) suivront bientôt.

"Certains clients n'auront peut-être besoin que de petits modèles, d'autres auront besoin de grands modèles et beaucoup voudront combiner les deux de différentes manières", a déclaré Luis Vargas, vice-président de l'IA de Microsoft.

Le principal avantage des SLM est leur petite taille, permettant un déploiement sur l'appareil pour des expériences d'IA à faible latence sans connectivité réseau. Les cas d'utilisation potentiels incluent les capteurs intelligents, les caméras, le matériel agricole, etc. La confidentialité est un autre avantage en conservant les données sur l'appareil.

(Crédit : Microsoft)

Les grands modèles linguistiques (LLM) excellent dans le raisonnement complexe sur de vastes ensembles de données : des atouts adaptés à des applications telles que la découverte de médicaments en comprenant les interactions entre la littérature scientifique. Cependant, les SLM offrent une alternative intéressante pour des réponses aux requêtes, des résumés, une génération de contenu plus simples, etc.

« Plutôt que de rechercher des modèles toujours plus grands, Microsoft développe des outils avec des données plus soigneusement sélectionnées et une formation spécialisée », a commenté Victor Botev, CTO et co-fondateur de Iris.ai.

« Cela permet d’améliorer les performances et les capacités de raisonnement sans les coûts de calcul énormes des modèles comportant des milliards de paramètres. Tenir cette promesse signifierait éliminer un énorme obstacle à l’adoption pour les entreprises à la recherche de solutions d’IA.

Technique d'entraînement révolutionnaire

Ce qui a permis à Microsoft de faire un saut en matière de qualité SLM, c'est une approche innovante de filtrage et de génération de données inspirée des livres d'histoires au coucher.

« Au lieu de vous former uniquement sur des données Web brutes, pourquoi ne recherchez-vous pas des données de très haute qualité ? » » a demandé Sébastien Bubeck, vice-président de Microsoft, responsable de la recherche SLM.

La routine de lecture nocturne de Ronen Eldan avec sa fille a donné naissance à l'idée de générer un ensemble de données « TinyStories » composé de millions de récits simples créés en incitant un grand modèle avec des combinaisons de mots qu'un enfant de 4 ans connaîtrait. Remarquablement, un modèle de 10 millions de paramètres formé sur TinyStories pourrait générer des histoires fluides avec une grammaire parfaite.

S'appuyant sur ces premiers succès, l'équipe a obtenu des données Web de haute qualité dont la valeur pédagogique a été vérifiée pour créer l'ensemble de données « CodeTextbook ». Ceci a été synthétisé par des séries d’incitations, de génération et de filtrage par des humains et de grands modèles d’IA.

"La production de ces données synthétiques nécessite beaucoup de soin", a déclaré Bubeck. "Nous ne prenons pas tout ce que nous produisons."

Les données de formation de haute qualité se sont avérées transformatrices. "Parce qu'il s'agit de lire à partir d'un matériel semblable à un manuel scolaire… vous facilitez beaucoup la tâche du modèle linguistique pour lire et comprendre ce matériel", a expliqué Bubeck.

Atténuer les risques de sécurité de l’IA

Malgré la conservation réfléchie des données, Microsoft met l'accent sur l'application de pratiques de sécurité supplémentaires à la version Phi-3, reflétant ses processus standard pour tous les modèles d'IA générative.

"Comme pour toutes les versions de modèles d'IA génératifs, les équipes produit et responsables de l'IA de Microsoft ont utilisé une approche à plusieurs niveaux pour gérer et atténuer les risques lors du développement des modèles Phi-3", indique un article de blog.

Cela comprenait des exemples de formation supplémentaires pour renforcer les comportements attendus, des évaluations pour identifier les vulnérabilités grâce au red-teaming et l'offre d'outils Azure AI aux clients pour créer des applications fiables au sommet de Phi-3.

(Photo par Tadas Sar)

Voir également: Microsoft va nouer des partenariats en matière d'IA avec des leaders technologiques sud-coréens

Vous souhaitez en savoir plus sur l’IA et le Big Data auprès des leaders du secteur ? Vérifier Salon de l'IA et du Big Data se déroulant à Amsterdam, en Californie et à Londres. L'événement complet est co-localisé avec d'autres événements de premier plan, notamment BlocX, Semaine de la transformation numériqueet Salon de la cybersécurité et du cloud.

Découvrez d'autres événements et webinaires technologiques d'entreprise à venir proposés par TechForge ici.

Mots clés: ai, intelligence artificielle, modèles de langage, Microsoft, open source, phi-3, petits modèles de langage




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top