La synchronisation labiale multi-haut-parleurs avec IA est arrivée
La synchronisation labiale multi-haut-parleurs avec IA est arrivée

Rask IA, un outil de localisation vidéo et audio basé sur l'IA, a annoncé le lancement de sa nouvelle fonctionnalité Multi-Speaker Lip-Sync. Grâce à la synchronisation labiale basée sur l'IA, 750 000 utilisateurs peuvent traduire leur contenu dans plus de 130 langues pour un son aussi fluide qu'un locuteur natif.

Pendant longtemps, il y a eu un manque de synchronisation entre les mouvements des lèvres et les voix dans les contenus doublés. Les experts estiment que c’est l’une des raisons pour lesquelles le doublage est relativement impopulaire dans les pays anglophones. En fait, les mouvements des lèvres rendent le contenu localisé plus réaliste et donc plus attrayant pour le public.

Il y a un étude de Yukari Hirata, professeur connue pour ses travaux en linguistique, qui affirme que l'observation des mouvements des lèvres (plutôt que des gestes) aide à percevoir les contrastes phonémiques difficiles dans la langue seconde. La lecture labiale est aussi l’une des façons dont nous apprenons à parler en général.

Aujourd'hui, grâce à la nouvelle fonctionnalité de Rask, il est possible de porter le contenu localisé à un nouveau niveau, en rendant les vidéos doublées plus naturelles.

L'IA restructure automatiquement la face inférieure en fonction des références. Il prend en compte l'apparence de l'orateur et ce qu'il dit pour rendre le résultat final plus réaliste.

Comment ça fonctionne:

  1. Téléchargez une vidéo avec une ou plusieurs personnes dans le cadre.
  2. Traduisez la vidéo dans une autre langue.
  3. Appuyez sur le bouton « Lip Sync Check » et l'algorithme évaluera la vidéo pour vérifier la compatibilité avec la synchronisation labiale.
  4. Si la vidéo réussit le contrôle, appuyez sur « Lip Sync » et attendez le résultat.
  5. Téléchargez la vidéo.

Selon Maria Chmir, fondatrice et PDG de Rask AI, la nouvelle fonctionnalité aidera les créateurs de contenu à élargir leur audience. L'IA ajuste visuellement les mouvements des lèvres pour donner l'impression qu'un personnage parle la langue aussi couramment qu'un locuteur natif.

La technologie est basée sur l’apprentissage du réseau contradictoire génératif (GAN), qui se compose d’un générateur et d’un discriminateur. Le générateur et le discriminateur rivalisent pour garder une longueur d’avance sur l’autre. Le générateur génère clairement le contenu (mouvements des lèvres), tandis que le discriminateur est responsable du contrôle qualité.

La version bêta est disponible pour tous les clients abonnés à Rask.

(Note de l'éditeur : cet article est sponsorisé par Rask IA)

Mots clés: ai, intelligence artificielle, GAN, Generative Adversarial Network, synchronisation labiale, rask, rask ai




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top