Alors que des travaux récents sur la génération d'objets 3D textuels ont montré des résultats prometteurs, les méthodes de pointe nécessitent généralement plusieurs heures de GPU pour produire un seul échantillon. Cela contraste fortement avec les modèles d'images génératives de pointe, qui produisent des échantillons en quelques secondes ou minutes. Dans cet article, nous explorons une méthode alternative pour la génération d'objets 3D qui produit des modèles 3D en seulement 1 à 2 minutes sur un seul GPU. Notre méthode génère d'abord une seule vue synthétique à l'aide d'un modèle de diffusion texte-image, puis produit un nuage de points 3D à l'aide d'un second modèle de diffusion qui conditionne l'image générée. Bien que notre méthode ne soit toujours pas à la pointe de la technologie en termes de qualité d'échantillon, elle est d'un à deux ordres de grandeur plus rapide à échantillonner, offrant un compromis pratique pour certains cas d'utilisation. Nous publions nos modèles de diffusion de nuages de points pré-formés, ainsi que le code et les modèles d'évaluation, à cette URL https.
Source