Les modèles d’IA vocale open source de Meta prennent en charge plus de 1 100 langues
Les modèles d’IA vocale open source de Meta prennent en charge plus de 1 100 langues

Les progrès de l'apprentissage automatique et de la technologie de reconnaissance vocale ont rendu l'information plus accessible aux personnes, en particulier à celles qui comptent sur la voix pour accéder à l'information. Cependant, le manque de données étiquetées pour de nombreuses langues pose un défi important dans le développement de modèles d'apprentissage automatique de haute qualité.

En réponse à ce problème, le projet Meta-led Massively Multilingual Speech (MMS) a fait des progrès remarquables dans l'expansion de la couverture linguistique et l'amélioration des performances des modèles de reconnaissance et de synthèse de la parole.

En combinant des techniques d'apprentissage auto-supervisé avec un ensemble de données diversifié de lectures religieuses, le projet MMS a obtenu des résultats impressionnants en faisant passer les ~ 100 langues prises en charge par les modèles de reconnaissance vocale existants à plus de 1 100 langues.

Faire tomber les barrières linguistiques

Pour remédier à la rareté des données étiquetées pour la plupart des langues, le projet MMS a utilisé des textes religieux, tels que la Bible, qui ont été traduits dans de nombreuses langues.

Ces traductions ont fourni des enregistrements audio accessibles au public de personnes lisant les textes, permettant la création d'un ensemble de données comprenant des lectures du Nouveau Testament dans plus de 1 100 langues.

En incluant des enregistrements non étiquetés d'autres lectures religieuses, le projet a élargi la couverture linguistique à reconnaître plus de 4 000 langues.

Malgré le domaine spécifique de l'ensemble de données et les locuteurs majoritairement masculins, les modèles ont fonctionné aussi bien pour les voix masculines que féminines. Meta dit également qu'il n'a introduit aucun préjugé religieux.

Surmonter les défis grâce à l'apprentissage auto-supervisé

La formation de modèles conventionnels de reconnaissance vocale supervisée avec seulement 32 heures de données par langue est insuffisante.

Pour surmonter cette limitation, le projet MMS a tiré parti des avantages de la technique d'apprentissage de la représentation vocale auto-supervisée wav2vec 2.0.

En formant des modèles auto-supervisés sur environ 500 000 heures de données vocales dans 1 400 langues, le projet a considérablement réduit la dépendance à l'égard des données étiquetées.

Les modèles résultants ont ensuite été affinés pour des tâches vocales spécifiques, telles que la reconnaissance vocale multilingue et l'identification de la langue.

Des résultats impressionnants

L'évaluation des modèles formés sur les données MMS a révélé des résultats impressionnants. Dans une comparaison avec Whisper d'OpenAI, les modèles MMS présentaient la moitié du taux d'erreur de mot tout en couvrant 11 fois plus de langues.

De plus, le projet MMS a construit avec succès des systèmes de synthèse vocale pour plus de 1 100 langues. Malgré la limitation d'avoir relativement peu de locuteurs différents pour de nombreuses langues, la parole générée par ces systèmes présentait une qualité élevée.

Alors que les modèles MMS ont montré des résultats prometteurs, il est essentiel de reconnaître leurs imperfections. Des erreurs de transcription ou des interprétations erronées par le modèle de synthèse vocale peuvent entraîner un langage offensant ou inexact. Le projet MMS met l'accent sur la collaboration au sein de la communauté de l'IA pour atténuer ces risques.

Vous pouvez lire le document MMS ici ou trouver le projet sur GitHub.

Vous voulez en savoir plus sur l'IA et le Big Data auprès des leaders de l'industrie ? Vérifier Salon de l'IA et du Big Data se déroulant à Amsterdam, en Californie et à Londres. L'événement est co-localisé avec Semaine de la transformation numérique.

Découvrez d'autres événements et webinaires technologiques d'entreprise à venir propulsés par TechForge ici.

  • Ryan Daws

    Ryan est rédacteur en chef chez TechForge Media avec plus d'une décennie d'expérience couvrant les dernières technologies et interviewant des personnalités de premier plan de l'industrie. Il peut souvent être aperçu lors de conférences techniques avec un café fort dans une main et un ordinateur portable dans l'autre. Si c'est geek, il est probablement dedans. Retrouvez-le sur Twitter (@Gadget_Ry) ou Mastodon (@gadgetry@techhub.social)

Mots clés: ai, intelligence artificielle, méta, méta mms, mms, reconnaissance vocale, synthèse vocale, reconnaissance vocale




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top