Génération d'images textuelles hiérarchiques avec latentes CLIP

Il a été démontré que les modèles contrastifs comme CLIP apprennent des représentations robustes d'images qui capturent à la fois la sémantique et le style. Pour tirer parti de ces représentations pour la génération d'images, nous proposons un modèle en deux étapes : un a priori qui génère une image intégrée CLIP à partir d'une légende de texte, et un décodeur qui génère une image conditionnée sur l'image intégrée. Nous montrons que la génération explicite de représentations d'images améliore la diversité des images avec une perte minimale de photoréalisme et de similarité des légendes. Nos décodeurs conditionnés aux représentations d'images peuvent également produire des variations d'une image qui préservent à la fois sa sémantique et son style, tout en faisant varier les détails non essentiels absents de la représentation d'image. De plus, l'espace d'intégration conjointe de CLIP permet des manipulations d'images guidées par le langage de manière instantanée. Nous utilisons des modèles de diffusion pour le décodeur et expérimentons des modèles autorégressifs et de diffusion pour le prior, constatant que ces derniers sont plus efficaces en termes de calcul et produisent des échantillons de meilleure qualité.

Source

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch