Stability AI dévoile le modèle « Stable Audio » pour la génération audio contrôlable
Stability AI dévoile le modèle « Stable Audio » pour la génération audio contrôlable

IA de stabilité a introduit « Stable Audio », un modèle de diffusion latente conçu pour révolutionner la génération audio.

Cette avancée promet d'être un nouveau pas en avant pour l'IA générative et combine les métadonnées du texte, la durée de l'audio et le conditionnement de l'heure de début pour offrir un contrôle sans précédent sur le contenu et la durée de l'audio généré, permettant même la création de chansons complètes.

Les modèles de diffusion audio étaient traditionnellement confrontés à une limitation significative dans la génération d’audio de durées fixes, conduisant souvent à des phrases musicales abruptes et incomplètes. Cela était principalement dû au fait que les modèles étaient entraînés sur des morceaux audio aléatoires extraits de fichiers plus longs, puis forcés à des longueurs prédéterminées.

Stable Audio relève efficacement ce défi historique, en permettant la génération d'audio avec des longueurs spécifiées, jusqu'à la taille de la fenêtre de formation.

L'une des caractéristiques les plus remarquables de Stable Audio est son utilisation d'une représentation latente de l'audio fortement sous-échantillonnée, ce qui entraîne des temps d'inférence considérablement accélérés par rapport à l'audio brut. Grâce à des techniques d'échantillonnage par diffusion de pointe, le modèle phare Stable Audio peut générer 95 secondes d'audio stéréo à une fréquence d'échantillonnage de 44,1 kHz en moins d'une seconde en utilisant la puissance d'un GPU NVIDIA A100.

Une base solide

L'architecture de base de Stable Audio comprend un auto-encodeur variationnel (VAE), un encodeur de texte et un modèle de diffusion conditionnée basé sur U-Net.

Le VAE joue un rôle central en compressant l’audio stéréo dans un codage latent avec perte et résistant au bruit qui accélère considérablement les processus de génération et de formation. Cette approche, basée sur Description du codec audio Les architectures d'encodeur et de décodeur facilitent l'encodage et le décodage de l'audio de longueur arbitraire tout en garantissant une sortie haute fidélité.

Pour exploiter l'influence des invites textuelles, Stability AI utilise un encodeur de texte dérivé d'un TAPER modèle spécialement formé sur leur ensemble de données. Cela permet au modèle d'imprégner les caractéristiques du texte d'informations sur les relations entre les mots et les sons. Ces caractéristiques textuelles, extraites de l’avant-dernière couche de l’encodeur de texte CLAP, sont intégrées dans le U-Net de diffusion via des couches d’attention croisée.

Pendant la formation, le modèle apprend à incorporer deux propriétés clés des morceaux audio : la seconde de départ (« seconds_start ») et la durée totale du fichier audio d'origine (« seconds_total »). Ces propriétés sont transformées en intégrations apprises discrètes par seconde, qui sont ensuite concaténées avec les jetons d'invite de texte. Ce conditionnement unique permet aux utilisateurs de spécifier la durée souhaitée de l'audio généré lors de l'inférence.

Le modèle de diffusion au cœur de Stable Audio possède un nombre impressionnant de 907 millions de paramètres et exploite un mélange sophistiqué de couches résiduelles, de couches d'auto-attention et de couches d'attention croisée pour débruiter l'entrée tout en prenant en compte les intégrations de texte et de timing. Pour améliorer l'efficacité de la mémoire et l'évolutivité pour des séquences plus longues, le modèle intègre des implémentations d'attention économes en mémoire.

Pour former le modèle phare Stable Audio, Stability AI a organisé un vaste ensemble de données comprenant plus de 800 000 fichiers audio comprenant de la musique, des effets sonores et des tiges d'instrument unique. Ce riche ensemble de données, fourni en partenariat avec AudioSparx – un important fournisseur de musique de stock – représente la somme stupéfiante de 19 500 heures d’audio.

Stable Audio représente l'avant-garde de la recherche sur la génération audio, issue du laboratoire de recherche audio générative de Stability AI, Harmonaï. L'équipe reste dédiée à l'avancement des architectures de modèles, à l'affinement des ensembles de données et à l'amélioration des procédures de formation. Leur objectif consiste à améliorer la qualité de sortie, à affiner la contrôlabilité, à optimiser la vitesse d'inférence et à élargir la gamme de longueurs de sortie réalisables.

Stability AI a fait allusion aux prochaines versions d'Harmonai, évoquant la possibilité de modèles open source basés sur Stable Audio et un code de formation accessible.

Cette dernière annonce révolutionnaire fait suite à une série d’histoires remarquables sur la stabilité. Plus tôt cette semaine, Stability a rejoint sept autres grandes sociétés d'IA qui ont signé l'engagement volontaire de la Maison Blanche en matière de sécurité de l'IA dans le cadre de son deuxième cycle.

Vous pouvez essayer Stable Audio par vous-même ici.

(Photo par Éric Nopanen sur Unsplash)

Vous souhaitez en savoir plus sur l’IA et le Big Data auprès des leaders du secteur ? Vérifier Salon de l'IA et du Big Data se déroulant à Amsterdam, en Californie et à Londres. L'événement complet est co-localisé avec Semaine de la transformation numérique.

Découvrez d'autres événements et webinaires technologiques d'entreprise à venir proposés par TechForge ici.

  • Ryan Davies

    Ryan est rédacteur en chef chez TechForge Media avec plus d'une décennie d'expérience dans la couverture des dernières technologies et dans les interviews de personnalités de premier plan du secteur. On peut souvent l'apercevoir lors de conférences techniques avec un café fort dans une main et un ordinateur portable dans l'autre. Si c'est geek, il est probablement intéressé. Retrouvez-le sur Twitter (@Gadget_Ry) ou Mastodon (@gadgetry@techhub.social)

Mots clés: ai, intelligence artificielle, génération audio, modèle clap, ai générative, harmoniai, diffusion latente, modèle, stabilité ai, audio stable




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top