Abstrakt und 1 Einleitung
Verwandte Arbeiten
2.1. Vision-and-Language Navigation
2.2. Semantisches Szeneverständnis und Instanzsegmentierung
2.3. 3D-Szenenrekonstruktion
Methodik
3.1. Datensammlung
3.2. Open-Set semantische Informationen aus Bildern
3.3. Erstellung der Open-Set 3D-Repräsentation
3.4. Sprachgeführte Navigation
Experimente
4.1. Quantitative Auswertung
4.2. Qualitative Ergebnisse
Schlussfolgerung und zukünftige Arbeit, Offenlegungserklärung und Referenzen
In jüngster Zeit hat die 3D-Szenenrekonstruktion erhebliche Fortschritte gemacht. Einige neuere Arbeiten in diesem Bereich umfassen die Verwendung eines selbstüberwachten Ansatzes für die semantische Geometrievervollständigung und Erscheinungsrekonstruktion aus RGB-D-Scans wie [26], der eine 3D-Encoder-Decoder-Architektur für Geometrie und Farbe verwendet. Bei diesen Ansätzen liegt der Fokus auf der Erzeugung semantischer Rekonstruktion ohne Ground Truth. Ein anderer Ansatz besteht darin, Echtzeit-3D-Rekonstruktion mit SLAM zu integrieren. Dies geschieht durch keyframe-basierte Techniken und wurde in neueren Anwendungsfällen für autonome Navigation und AR eingesetzt [27]. Eine weitere neuere Methode hat Arbeiten an Neural Radiance Fields [28] für Innenräume gesehen, wenn Structure-from-Motion verwendet wird, um kameraerfasste Szenen zu verstehen. Diese NeRF-Modelle werden für jeden Standort trainiert und sind besonders gut für räumliches Verständnis geeignet. Eine andere Methode besteht darin, 3D-Szenengraphen mit offenem Vokabular und Grundlagenmodellen wie CLIP zu erstellen, um semantische Beziehungen zwischen Objekten und ihren visuellen Darstellungen zu erfassen [4]. Während der Rekonstruktion verwenden sie die aus den 3D-Punktwolken extrahierten Merkmale und projizieren sie auf den von CLIP gelernten Einbettungsraum.
\ Diese Arbeit verwendet eine Open-Set 2D-Instanzsegmentierungsmethode, wie in den vorherigen Abschnitten erläutert. Bei einem RGB-D-Bild erhalten wir diese einzelnen Objektmasken aus dem RGB-Bild und projizieren sie mit dem Tiefenbild zurück in 3D. Hier haben wir einen instanzbasierten Ansatz anstelle einer punkt-für-punkt Berechnung zur Rekonstruktion, wie es zuvor von Concept-Fusion [29] durchgeführt wurde. Diese Extraktion von Merkmalsmasken pro Objekt hilft uns auch bei der Berechnung von Einbettungen, die die Open-Set-Natur dieser Pipeline bewahren.
\
:::info Autoren:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.
:::
:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.
:::
\


