Überprüft 3D-Rekonstruktion, einschließlich selbstüberwachter, SLAM- und NeRF-Methoden. Unser Ansatz verwendet Open-Set-2D-Instanzsegmentierung und RGB-D-Rückprojektion für effizientes instanzbasiertes 3D-Mapping.Überprüft 3D-Rekonstruktion, einschließlich selbstüberwachter, SLAM- und NeRF-Methoden. Unser Ansatz verwendet Open-Set-2D-Instanzsegmentierung und RGB-D-Rückprojektion für effizientes instanzbasiertes 3D-Mapping.

Semantische Geometrievervollständigung und SLAM-Integration in der 3D-Kartierung

2025/12/11 02:00

Abstrakt und 1 Einleitung

  1. Verwandte Arbeiten

    2.1. Vision-and-Language Navigation

    2.2. Semantisches Szeneverständnis und Instanzsegmentierung

    2.3. 3D-Szenenrekonstruktion

  2. Methodik

    3.1. Datensammlung

    3.2. Open-Set semantische Informationen aus Bildern

    3.3. Erstellung der Open-Set 3D-Repräsentation

    3.4. Sprachgeführte Navigation

  3. Experimente

    4.1. Quantitative Auswertung

    4.2. Qualitative Ergebnisse

  4. Schlussfolgerung und zukünftige Arbeit, Offenlegungserklärung und Referenzen

2.3. 3D-Szenenrekonstruktion

In jüngster Zeit hat die 3D-Szenenrekonstruktion erhebliche Fortschritte gemacht. Einige neuere Arbeiten in diesem Bereich umfassen die Verwendung eines selbstüberwachten Ansatzes für die semantische Geometrievervollständigung und Erscheinungsrekonstruktion aus RGB-D-Scans wie [26], der eine 3D-Encoder-Decoder-Architektur für Geometrie und Farbe verwendet. Bei diesen Ansätzen liegt der Fokus auf der Erzeugung semantischer Rekonstruktion ohne Ground Truth. Ein anderer Ansatz besteht darin, Echtzeit-3D-Rekonstruktion mit SLAM zu integrieren. Dies geschieht durch keyframe-basierte Techniken und wurde in neueren Anwendungsfällen für autonome Navigation und AR eingesetzt [27]. Eine weitere neuere Methode hat Arbeiten an Neural Radiance Fields [28] für Innenräume gesehen, wenn Structure-from-Motion verwendet wird, um kameraerfasste Szenen zu verstehen. Diese NeRF-Modelle werden für jeden Standort trainiert und sind besonders gut für räumliches Verständnis geeignet. Eine andere Methode besteht darin, 3D-Szenengraphen mit offenem Vokabular und Grundlagenmodellen wie CLIP zu erstellen, um semantische Beziehungen zwischen Objekten und ihren visuellen Darstellungen zu erfassen [4]. Während der Rekonstruktion verwenden sie die aus den 3D-Punktwolken extrahierten Merkmale und projizieren sie auf den von CLIP gelernten Einbettungsraum.

\ Diese Arbeit verwendet eine Open-Set 2D-Instanzsegmentierungsmethode, wie in den vorherigen Abschnitten erläutert. Bei einem RGB-D-Bild erhalten wir diese einzelnen Objektmasken aus dem RGB-Bild und projizieren sie mit dem Tiefenbild zurück in 3D. Hier haben wir einen instanzbasierten Ansatz anstelle einer punkt-für-punkt Berechnung zur Rekonstruktion, wie es zuvor von Concept-Fusion [29] durchgeführt wurde. Diese Extraktion von Merkmalsmasken pro Objekt hilft uns auch bei der Berechnung von Einbettungen, die die Open-Set-Natur dieser Pipeline bewahren.

\

:::info Autoren:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.

:::


:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.

:::

\

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.