NVIDIA présente les dernières avancées en matière d'IA visuelle
NVIDIA présente les dernières avancées en matière d'IA visuelle

Les chercheurs de NVIDIA présentent de nouveaux modèles et techniques d'IA générative visuelle au Vision par ordinateur et reconnaissance de formes (CVPR) cette semaine à Seattle. Les avancées couvrent des domaines tels que la génération d’images personnalisées, l’édition de scènes 3D, la compréhension du langage visuel et la perception des véhicules autonomes.

« L'intelligence artificielle, et l'IA générative en particulier, représente une avancée technologique cruciale », a déclaré Jan Kautz, vice-président de la recherche sur l'apprentissage et la perception chez NVIDIA.

« Au CVPR, NVIDIA Research explique comment nous repoussons les limites de ce qui est possible : depuis de puissants modèles de génération d'images qui pourraient dynamiser les créateurs professionnels jusqu'aux logiciels de conduite autonome qui pourraient aider à rendre possible la prochaine génération de voitures autonomes. »

Parmi plus de 50 projets de recherche NVIDIA présentés, deux articles ont été sélectionnés comme finalistes pour les Best Paper Awards du CVPR – l'un explorant le dynamique de formation des modèles de diffusion et un autre sur cartes haute définition pour voitures autonomes.

De plus, NVIDIA a remporté le parcours de conduite de bout en bout à grande échelle du CVPR Autonomous Grand Challenge, surpassant plus de 450 candidatures dans le monde. Cette étape démontre le travail pionnier de NVIDIA dans l'utilisation de l'IA générative pour des modèles complets de véhicules autonomes, ce qui lui a valu également un prix de l'innovation du CVPR.

L'un des projets de recherche phares est JeDiune nouvelle technique qui permet aux créateurs de personnaliser rapidement les modèles de diffusion (l'approche principale pour la génération de texte en image) pour représenter des objets ou des personnages spécifiques à l'aide de quelques images de référence seulement, plutôt que de passer par un processus fastidieux de réglage personnalisé. ensembles de données.

Une autre percée est FondationPose, un nouveau modèle de base capable de comprendre et de suivre instantanément la pose 3D des objets dans des vidéos sans formation par objet. Il a établi un nouveau record de performances et pourrait débloquer de nouvelles applications de réalité augmentée et de robotique.

Les chercheurs de NVIDIA ont également introduit NeRFDeformer, une méthode permettant d'éditer la scène 3D capturée par un champ de radiance neuronale (NeRF) à l'aide d'un seul instantané 2D, plutôt que d'avoir à réanimer manuellement les modifications ou à recréer entièrement le NeRF. Cela pourrait rationaliser l’édition de scènes 3D pour les applications graphiques, robotiques et de jumeaux numériques.

Sur le plan du langage visuel, NVIDIA a collaboré avec le MIT pour développer VILA, une nouvelle famille de modèles de langage de vision qui atteignent des performances de pointe en matière de compréhension des images, des vidéos et du texte. Grâce à des capacités de raisonnement améliorées, VILA peut même comprendre les mèmes Internet en combinant compréhension visuelle et linguistique.

Les recherches de NVIDIA sur l'IA visuelle couvrent de nombreux secteurs, avec notamment plus d'une douzaine d'articles explorant de nouvelles approches pour la perception, la cartographie et la planification des véhicules autonomes. Sanja Fidler, vice-présidente de l'équipe AI Research de NVIDIA, présente le potentiel des modèles de langage de vision pour les voitures autonomes.

L'étendue des recherches CVPR de NVIDIA illustre comment l'IA générative pourrait responsabiliser les créateurs, accélérer l'automatisation dans la fabrication et les soins de santé, tout en faisant progresser l'autonomie et la robotique.

(Photo par v2osk)

Voir également: NLEP : combler le fossé entre les LLM et le raisonnement symbolique

Vous souhaitez en savoir plus sur l’IA et le Big Data auprès des leaders du secteur ? Vérifier Salon de l'IA et du Big Data se déroulant à Amsterdam, en Californie et à Londres. L'événement complet est co-localisé avec d'autres événements de premier plan, notamment Conférence sur l'automatisation intelligente, BlocX, Semaine de la transformation numériqueet Salon de la cybersécurité et du cloud.

Découvrez d'autres événements et webinaires technologiques d'entreprise à venir proposés par TechForge ici.

Mots clés: IA, intelligence artificielle, vision par ordinateur, CVPR, FoundationPose, IA générative, jedi, Nvidia, VILA




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top