La reconnaissance visuelle de lieu (VPR) consiste à identifier l'emplacement où des images spécifiques ont été prises. Les informaticiens ont récemment développé divers algorithmes d'apprentissage en profondeur qui pourraient s'attaquer efficacement à cette tâche, permettant aux utilisateurs de savoir où, dans un environnement connu, une image a été capturée.
Une équipe de chercheurs de l'Université de technologie de Delft (TU Delft) a récemment introduit une nouvelle approche pour améliorer les performances des algorithmes d'apprentissage en profondeur pour les applications VPR. Leur méthode proposée, décrite dans un article de Transactions IEEE sur la robotiqueest basé sur un nouveau modèle appelé régression continue des descripteurs de lieu (CoPR).
"Notre étude est née d'une réflexion sur les goulots d'étranglement fondamentaux des performances VPR et sur les approches de localisation visuelle associées", a déclaré Mubariz Zaffar, premier auteur de l'étude, à Tech Xplore.
"D'abord, nous parlions du problème de 'crénelage perceptif', c'est-à-dire des zones distinctes avec des apparences visuelles similaires. Comme exemple simple, imaginons que nous collectons des images de référence avec un véhicule roulant sur la voie la plus à droite d'une autoroute. Si nous conduisons plus tard sur la voie la plus à gauche de la même autoroute, l'estimation VPR la plus précise serait de faire correspondre ces images de référence à proximité. Cependant, le contenu visuel peut correspondre de manière incorrecte à une section d'autoroute différente où des images de référence ont également été collectées sur la voie la plus à gauche.
Une façon possible de surmonter cette limitation des approches VPR identifiée par Zaffar et ses collègues pourrait être de former le soi-disant extracteur de descripteur d'image (c'est-à-dire un composant des modèles VPR qui extrait les éléments descriptifs des images) pour analyser les images de la même manière indépendamment de la conduite. voie dans laquelle ils sont pris. Cependant, cela réduirait leur capacité à déterminer efficacement l'endroit où une image a été prise.
"Nous nous sommes donc demandé : la VPR n'est-elle possible que si nous collectons des images sur toutes les voies pour chaque autoroute cartographiée ou si nous ne conduisons que dans la même voie exacte ? Nous voulions étendre le paradigme de récupération d'images simple mais efficace de VPR pour gérer ces problèmes pratiques", a déclaré Zaffar. a dit.
"Deuxièmement, nous avons réalisé que même l'estimation de la pose d'un système VPR parfait serait limitée en précision, car la taille finie des images de référence et de leurs poses signifiait que la carte ne pouvait pas contenir une référence avec exactement la même pose pour chaque requête possible, Nous avons donc considéré qu'il pourrait être plus important de remédier à cette rareté, plutôt que d'essayer de construire des descripteurs VPR encore meilleurs."
Lors de l'examen de la littérature précédente, Zaffar et ses collègues ont également réalisé que les modèles VPR sont souvent utilisés dans le cadre d'un système plus vaste. Par exemple, les techniques de localisation et de cartographie visuelles simultanées (SLAM) peuvent bénéficier des approches VPR pour détecter les soi-disant fermetures de boucles, tandis que les approches de localisation grossière à fine peuvent atteindre une précision de localisation inférieure au mètre en affinant les estimations de pose grossières de VPR.
"Par rapport à ces systèmes plus complexes, l'étape VPR s'adapte bien aux grands environnements et est facile à mettre en œuvre, mais son estimation de pose n'est pas si précise, car elle ne peut renvoyer que la ou les poses de l'image ou des images précédemment vues qui mieux correspondre visuellement à la requête », a déclaré Zaffar.
"Néanmoins, SLAM et l'estimation de pose relative fournissent des estimations de pose très précises en utilisant les mêmes images et poses de références clairsemées, alors en quoi ces approches sont-elles fondamentalement différentes de VPR? Notre observation est que ces techniques construisent une représentation spatiale continue à partir des références qui relient explicitement une pose aux caractéristiques visuelles, permettant de raisonner sur le contenu visuel à des poses interpolées et extrapolées à partir des références données."
Sur la base de leurs observations, les chercheurs ont cherché à savoir si les mêmes représentations continues obtenues par SLAM et les approches d'estimation de la pose relative pouvaient être étendues aux modèles VPR fonctionnant seuls. Les approches VPR conventionnelles fonctionnent en convertissant une image de requête en un seul vecteur dit descripteur, puis en la comparant avec des descripteurs précalculés tandis que les approches de localisation grossière à fine peuvent atteindre une précision de localisation inférieure au mètre en affinant les estimations de pose grossières de VPR. . Collectivement, tous ces descripteurs de référence sont appelés la « carte ».
Après avoir comparé ces descripteurs, le modèle détermine le descripteur de référence qui correspond le mieux au descripteur de l'image de requête. Le modèle résout ainsi la tâche VPR en partageant l'emplacement et l'orientation (c'est-à-dire la pose) du descripteur de référence qui est le plus similaire au descripteur de l'image de requête.
Pour améliorer la localisation VPR, Zaffar et ses collègues se contentent de densifier la « carte » globale des descripteurs en utilisant des modèles d'apprentissage en profondeur. Au lieu de considérer les descripteurs d'images de référence comme un ensemble discret séparé de leurs poses, leur méthode considère essentiellement les références comme des points sur une fonction continue sous-jacente qui relie les poses à leurs descripteurs.
"Si vous pensez à une paire de références avec deux poses proches (donc, des images avec des emplacements et des orientations quelque peu différents, mais qui regardent toujours la même scène), vous pouvez imaginer que les descripteurs sont quelque peu similaires car ils représentent un contenu visuel similaire", Julian Kooji, co-auteur de l'étude, a expliqué.
"Pourtant, ils sont également quelque peu différents car ils représentent différents points de vue. Bien qu'il soit difficile de définir manuellement comment les descripteurs changent exactement, cela peut être appris à partir des descripteurs de référence peu disponibles avec des poses connues. C'est alors l'essence de notre approche. : nous pouvons modéliser l'évolution des descripteurs d'image en fonction d'un changement de pose et l'utiliser pour densifier la carte de référence. Dans une étape hors ligne, nous adaptons une fonction d'interpolation et d'extrapolation qui peut régresser le descripteur à une pose invisible à partir de la position connue proche descripteurs de référence."
Après avoir terminé ces étapes, l'équipe a pu densifier la carte considérée par les modèles VPR en ajoutant les descripteurs régressés pour les nouvelles poses, qui représentent la même scène dans les images de référence mais légèrement déplacées ou tournées. Remarquablement, l'approche conçue par Zaffar et ses collègues ne nécessite aucune modification de conception des modèles VPR et leur permet de fonctionner en ligne, car les modèles se voient proposer un plus grand ensemble de références auxquelles ils peuvent faire correspondre une image de requête. Un autre avantage de cette nouvelle approche pour VPR est qu'elle nécessite une puissance de calcul relativement minimale.
"Certains autres travaux récents (par exemple, les champs de rayonnement neuronal et la stéréo à vues multiples) ont suivi un processus de réflexion similaire, cherchant également à densifier la carte sans collecter davantage d'images de référence", a déclaré Zaffar. "Ces travaux ont proposé de construire implicitement/explicitement un modèle 3D texturé de l'environnement pour synthétiser des images de référence à de nouvelles poses, puis densifier la carte en extrayant les descripteurs d'image de ces images de référence synthétiques. Cette approche a des parallèles avec les nuages de points 3D estimé par SLAM visuel, et qui nécessite un réglage minutieux et une optimisation coûteuse. En outre, le descripteur VPR résultant pourrait inclure des conditions d'apparence (météo, saisons, etc.) qui sont considérées comme non pertinentes pour le VPR, ou trop sensibles aux artefacts de reconstruction accidentels.
Par rapport aux approches précédentes visant à améliorer les performances des modèles VPR en reconstruisant la scène dans l'espace image, l'approche de Zaffar exclut cet espace image intermédiaire, ce qui augmenterait sa charge de calcul et introduirait des détails non pertinents. Essentiellement, au lieu de reconstruire ces images, l'approche de l'équipe travaille directement sur les descripteurs de référence. Cela rend beaucoup plus simple la mise en œuvre des modèles VPR à grande échelle.
"De plus, notre approche n'a pas besoin d'avoir accès aux images de référence elles-mêmes, elle n'a besoin que des descripteurs et des poses de référence", a déclaré Kooji. "Il est intéressant de noter que nos expériences montrent que l'approche de régression des descripteurs est plus efficace si une méthode VPR basée sur l'apprentissage en profondeur a été entraînée avec une perte qui pèse les correspondances de descripteurs sur la similarité de pose, car cela aide à aligner l'espace des descripteurs avec la géométrie des informations visuelles."
Lors des premières évaluations, la méthode des chercheurs a obtenu des résultats très prometteurs malgré la simplicité des modèles employés, ce qui signifie que des modèles plus complexes pourraient bientôt atteindre de meilleures performances. De plus, la méthode s'est avérée avoir un objectif très similaire à celui des méthodes existantes pour l'estimation de la pose relative (c'est-à-dire pour prédire comment les scènes se transforment lorsqu'on les regarde sous des angles spécifiques).
"Les deux approches traitent différents types d'erreurs VPR et sont complémentaires", a déclaré Kooji. "L'estimation de pose relative peut réduire davantage les erreurs de pose finales à partir d'une référence correctement récupérée par VPR, mais elle ne peut pas corriger la pose si VPR a récupéré de manière incorrecte le mauvais endroit avec une apparence similaire au véritable emplacement ("crénelage perceptif"). Nous montrons avec des exemples concrets qui cartographient la densification à l'aide de notre méthode peuvent aider à identifier ou à éviter de telles inadéquations catastrophiques."
À l'avenir, la nouvelle approche développée par cette équipe de chercheurs pourrait contribuer à améliorer de manière agnostique les performances des algorithmes pour les applications VPR, sans augmenter leur charge de calcul. En conséquence, cela pourrait également améliorer les performances globales des systèmes SLAM ou de localisation grossière à fine qui reposent sur ces modèles.
Jusqu'à présent, Zaffar et ses collègues ont testé leur approche en utilisant des fonctions de régression simples pour interpoler et extrapoler des descripteurs, tels que l'interpolation linéaire et les réseaux de neurones superficiels, qui ne considéraient qu'un ou quelques descripteurs de référence proches. Dans leurs prochaines études, ils aimeraient concevoir des techniques d'interpolation basées sur l'apprentissage plus avancées qui peuvent prendre en compte beaucoup plus de références, car cela pourrait encore améliorer leur approche.
"Par exemple, pour une requête regardant dans un couloir, une référence plus loin dans le couloir pourrait fournir des informations plus détaillées sur ce que le descripteur devrait contenir qu'une référence plus proche regardant dans l'autre direction", a ajouté Kooji.
"Un autre objectif de nos travaux futurs sera de fournir un réseau de densification de carte pré-entraîné qui peut se généraliser à différentes poses sur divers ensembles de données, et qui fonctionne bien avec peu ou pas de réglage fin. Dans nos expériences actuelles, nous adaptons le modèle à partir de zéro sur une formation séparation de chaque ensemble de données séparément. Un modèle pré-entraîné unifié peut utiliser plus de données d'entraînement, permettant des architectures de réseau plus complexes, et donner de meilleurs résultats prêts à l'emploi aux utilisateurs finaux de VPR.
Plus d'information: Mubariz Zaffar et al, CoPR : vers une localisation visuelle précise avec régression continue du descripteur de lieu, Transactions IEEE sur la robotique (2023). DOI : 10.1109/TRO.2023.3262106
© 2023 Réseau Science X
Citation: Une nouvelle approche pour la densification cartographique dans la reconnaissance visuelle des lieux (2023, 22 mai) récupéré le 22 mai 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source