Beschreibt die O3D-SIM-Pipeline für VLN. Sie extrahiert semantische Open-Set-Instanzinformationen (Masken, CLIP/DINO-Features) aus RGB-D-BildernBeschreibt die O3D-SIM-Pipeline für VLN. Sie extrahiert semantische Open-Set-Instanzinformationen (Masken, CLIP/DINO-Features) aus RGB-D-Bildern

Semantische Instanzextraktion: CLIP- und DINO-Merkmale für 3D-Mapping

2025/12/11 03:00

Abstrakt und 1 Einleitung

  1. Verwandte Arbeiten

    2.1. Vision-and-Language Navigation

    2.2. Semantisches Szenenverständnis und Instanzsegmentierung

    2.3. 3D-Szenenrekonstruktion

  2. Methodik

    3.1. Datensammlung

    3.2. Open-Set semantische Informationen aus Bildern

    3.3. Erstellung der Open-Set 3D-Repräsentation

    3.4. Sprachgeführte Navigation

  3. Experimente

    4.1. Quantitative Auswertung

    4.2. Qualitative Ergebnisse

  4. Fazit und zukünftige Arbeit, Offenlegungserklärung und Referenzen

3. Methodik

In diesem Abschnitt diskutieren wir die Pipeline unserer Vision-Language Navigation (VLN)-Methode, die O3D-SIM einsetzt. Wir beginnen mit einem Überblick über unsere vorgeschlagene Pipeline und präsentieren dann eine eingehende Analyse ihrer Bestandteile. Die Anfangsphase unserer Methodik umfasst die Datensammlung, bestehend aus einer Reihe von RGB-D-Bildern und extrinsischen und intrinsischen Kameraparametern, die zuerst skizziert werden. Anschließend gehen wir zur Erstellung der Open-Set 3D Semantic Instance Map über. Dieser Prozess ist in zwei Hauptphasen unterteilt: Zunächst extrahieren wir Open-Set semantische Instanzinformationen aus den Bildern; danach nutzen wir die gesammelten Open-Set-Informationen, um die 3D-Punktwolke in eine Open-Set 3D semantische Instanzkarte zu organisieren. Der letzte Teil unserer Diskussion konzentriert sich auf das VLN-Modul, wo wir über seine Implementierung und Funktionalität sprechen.

\ Die Pipeline der O3D-SIM-Erstellung ist in Abb. 2 dargestellt. Der erste Schritt bei der Erstellung des O3D-SIM, der in Abschnitt 3.2 vorgestellt wird, ist die Extraktion der Open-Set semantischen Instanzinformationen aus der RGB-Sequenz der Eingangsbilder. Diese Informationen umfassen für jede Objektinstanz die Maskeninformationen und die semantischen Merkmale, dargestellt durch die CLIP [9] und DINO [10] Embedding-Features. Der zweite Schritt, der in Abschnitt 3.3 vorgestellt wird, verwendet diese Open-Set semantischen Instanzinformationen, um die Eingangs-3D-Punktwolke in eine Open-Set semantische 3D-Objektkarte zu clustern, siehe Abbildungen 2 und 3. Der Vorgang wird inkrementell verbessert, indem die Sequenz von RGB-D-Bildern im Laufe der Zeit angewendet wird.

\

:::info Autoren:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.

:::


:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.

:::

\

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.