Une équipe de chercheurs de Microsoft a présenté un nouveau système d'IA capable d'imiter la voix d'une personne après un entraînement avec un enregistrement de seulement trois secondes. L'équipe explique le développement de la nouvelle application dans un article publié sur le arXiv serveur de préimpression. Ils ont aussi posté une page Web démontrant les capacités de l'application.
Les applications d'intelligence artificielle nécessitent une formation sur des quantités massives de données. Mais dans cette nouvelle entreprise, l'équipe de Microsoft a montré que cela ne devait pas toujours être le cas.
La nouvelle application a été conçue à l'aide de la technologie de compression audio EnCodec de Meta et était à l'origine conçue comme un moyen d'améliorer la qualité des conversations téléphoniques. Des travaux ultérieurs ont montré qu'il est capable de bien plus - non seulement il peut imiter une voix, mais il peut également simuler le ton et même l'acoustique de l'environnement dans lequel l'enregistrement original a été réalisé.
Bien sûr, Microsoft n'a pas supprimé le besoin d'un ensemble de données massif ; au lieu de cela, les chercheurs ont déplacé là où il était utilisé. L'application a appris à "écouter" une chaîne de mots, puis à reproduire son son à l'aide de l'ensemble de données Libri-light de Meta, qui compte plus de 60 000 heures d'enregistrements réalisés par 7 000 personnes parlant anglais.
Les exemples fournis par Microsoft démontrent que le système fonctionne beaucoup mieux pour certaines voix que pour d'autres, et qu'il a des problèmes avec les accents. Mais comme l'application en est encore à ses débuts, il est probable que sa fonctionnalité s'améliorera avec le temps.
Microsoft n'a pas rendu public le code source de VALL-E et ne le fera probablement pas, notant qu'il pourrait être utilisé de manière moins responsable - des enregistrements de canulars de politiciens, par exemple. Lorsqu'ils sont combinés avec une vidéo deepfake, les résultats pourraient amener les "fausses nouvelles" vers de nouveaux sommets. L'exemple de Microsoft a montré ce qui est possible ; ainsi, il semblerait probable que des systèmes similaires par d'autres apparaîtront bientôt.
© 2023 Réseau Science X
Citation: Le VALL-E de Microsoft peut reproduire fidèlement une voix après avoir écouté un enregistrement de trois secondes (11 janvier 2023) récupéré le 11 janvier 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source