Un modèle qui utilise des invites humaines et des croquis pour générer des images de mode réalistes

L'intelligence artificielle (IA) a récemment commencé à faire son chemin dans de nombreuses industries créatives, par exemple, sous la forme d'outils pour les artistes numériques, les architectes, les décorateurs d'intérieur et les éditeurs d'images. Dans ces contextes, l'IA peut automatiser des processus fastidieux ou chronophages, tout en inspirant potentiellement les artistes et en facilitant leur processus créatif.

Des chercheurs de l'Université de Florence, de l'Université de Modène et de Reggio Emilia et de l'Université de Pise ont récemment entrepris d'explorer le potentiel des modèles d'IA dans le design de mode. Dans un article prépublié sur arXivils ont introduit un nouveau cadre de vision par ordinateur qui pourrait aider les créateurs de mode à visualiser leurs créations, en leur montrant à quoi ils pourraient ressembler sur le corps humain.

La plupart des études antérieures explorant l'utilisation de l'IA dans l'industrie de la mode se sont concentrées sur des outils informatiques qui peuvent recommander des vêtements similaires à ceux sélectionnés par un utilisateur ou des modèles qui peuvent montrer aux clients en ligne à quoi ressembleraient les vêtements sur leur corps (c'est-à-dire des systèmes d'essayage virtuels) . Cette équipe de chercheurs italiens, d'autre part, a entrepris de développer un cadre qui pourrait soutenir le travail des designers, leur montrant à quoi les vêtements qu'ils ont conçus pourraient ressembler dans la vie réelle, afin qu'ils puissent trouver une nouvelle inspiration, identifier les problèmes potentiels et modifier leurs conceptions si nécessaire.

"À la différence des travaux précédents qui se concentraient principalement sur l'essayage virtuel de vêtements, nous proposons la tâche d'édition d'images de mode conditionnées multimodales, guidant la génération d'images de mode centrées sur l'homme en suivant des invites multimodales, telles que du texte, des poses du corps humain, et des croquis de vêtements », ont écrit Alberto Baldrati, Davide Morelli et leurs collègues dans leur article.

"Nous nous attaquons à ce problème en proposant une nouvelle architecture basée sur des modèles de diffusion latente, une approche qui n'a jamais été utilisée auparavant dans le domaine de la mode."

Au lieu d'utiliser des réseaux antagonistes génératifs (GAN), des architectures de réseaux de neurones artificiels souvent utilisées pour générer de nouveaux textes ou images, les chercheurs ont décidé de créer un cadre basé sur des modèles de diffusion latente ou LDM. Comme ils sont entraînés dans un espace latent compressé et de moindre dimension, les LDM peuvent créer des images synthétiques de haute qualité.

Si ces modèles prometteurs ont été appliqués à de nombreuses tâches nécessitant la génération d'images ou de vidéos artificielles, ils ont rarement été utilisés dans le cadre de la retouche d'images de mode. La plupart des travaux antérieurs dans ce domaine ont introduit des architectures basées sur GAN, qui génèrent des images de qualité inférieure à celles des LDM.

La plupart des ensembles de données existants pour la formation de modèles d'IA sur des tâches de conception de mode n'incluent que des images de vêtements à basse résolution et n'incluent pas les informations nécessaires pour créer des images de mode basées sur des invites textuelles et des croquis. Pour former efficacement leur modèle, Baldrati, Morelli et leurs collègues ont donc dû d'abord mettre à jour ces jeux de données existants ou en créer de nouveaux.

"Compte tenu du manque d'ensembles de données existants adaptés à la tâche, nous étendons également deux ensembles de données de mode existants, à savoir Dress Code et VITON-HD, avec des annotations multimodales collectées de manière semi-automatique", expliquent Baldrati, Morelli et leurs collègues dans leur article. . "Les résultats expérimentaux sur ces nouveaux ensembles de données démontrent l'efficacité de notre proposition, à la fois en termes de réalisme et de cohérence avec les entrées multimodales données."

Lors des premières évaluations, le modèle créé par cette équipe de chercheurs a obtenu des résultats très prometteurs, créant des images réalistes de vêtements sur des corps humains inspirés de croquis humains et d'invites de texte spécifiques. Le code source de leur modèle et les annotations multimodales qu'ils ont ajoutées aux jeux de données seront bientôt publiés sur GitHub.

À l'avenir, ce nouveau modèle pourrait être intégré dans des outils logiciels existants ou nouveaux pour les créateurs de mode. Cela pourrait également éclairer le développement d'autres architectures d'IA basées sur des LDM pour des applications créatives du monde réel.

"C'est l'une des premières tentatives réussies d'imiter le travail des designers dans le processus créatif du design de mode et pourrait être un point de départ pour une adoption capillaire des modèles de diffusion dans les industries créatives, une surveillance par l'apport humain", Baldrati, Morelli et leur collègues concluent dans leur article.

Plus d'information: Alberto Baldrati et al, concepteur de vêtements multimodaux : modèles de diffusion latente centrés sur l'homme pour l'édition d'images de mode, arXiv (2023). DOI : 10.48550/arxiv.2304.02051

Informations sur la revue : arXiv

Citation: Un modèle qui utilise des invites humaines et des croquis pour générer des images de mode réalistes (2023, 25 avril) récupéré le 25 avril 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.

Source

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch