Revisa la reconstrucción 3D, incluyendo métodos autodirigidos, SLAM y NeRF. Nuestro enfoque utiliza segmentación de instancias 2D de conjunto abierto y retroproyección RGB-D para un mapeo 3D eficiente basado en instancias.Revisa la reconstrucción 3D, incluyendo métodos autodirigidos, SLAM y NeRF. Nuestro enfoque utiliza segmentación de instancias 2D de conjunto abierto y retroproyección RGB-D para un mapeo 3D eficiente basado en instancias.

Finalización de Geometría Semántica e Integración de SLAM en Mapeo 3D

2025/12/11 02:00

Abstracto y 1 Introducción

  1. Trabajos relacionados

    2.1. Navegación de visión y lenguaje

    2.2. Comprensión semántica de escenas y segmentación de instancias

    2.3. Reconstrucción de escenas 3D

  2. Metodología

    3.1. Recopilación de datos

    3.2. Información semántica de conjunto abierto a partir de imágenes

    3.3. Creación de la representación 3D de conjunto abierto

    3.4. Navegación guiada por lenguaje

  3. Experimentos

    4.1. Evaluación cuantitativa

    4.2. Resultados cualitativos

  4. Conclusión y trabajo futuro, declaración de divulgación y referencias

2.3. Reconstrucción de escenas 3D

En los últimos tiempos, la reconstrucción de escenas 3D ha experimentado avances significativos. Algunos trabajos recientes en este campo incluyen el uso de un enfoque autosupervisado para la finalización de geometría semántica y la reconstrucción de apariencia a partir de escaneos RGB-D como [26], que utiliza arquitectura de codificador-decodificador 3D para geometría y color. Para estos enfoques, el enfoque está en generar reconstrucción semántica sin verdad fundamental. Otro enfoque es integrar la reconstrucción 3D en tiempo real con SLAM. Esto se realiza mediante técnicas basadas en fotogramas clave y se ha utilizado en casos de uso recientes de navegación autónoma y RA [27]. Otro método reciente ha trabajado en Campos de Radiancia Neural [28] para espacios interiores al utilizar estructura-desde-movimiento para comprender escenas capturadas por cámara. Estos modelos NeRF se entrenan para cada ubicación y son particularmente buenos para la comprensión espacial. Otro método consiste en construir gráficos de escena 3D utilizando vocabulario abierto y modelos fundamentales como CLIP para capturar relaciones semánticas entre objetos y sus representaciones visuales [4]. Durante la reconstrucción, utilizan las características extraídas de las nubes de puntos 3D y las proyectan en el espacio de incrustación aprendido por CLIP.

\ Este trabajo utiliza un método de segmentación de instancias 2D de conjunto abierto, como se explica en las secciones anteriores. Dada una imagen RGB-D, obtenemos estas máscaras de objetos individuales de la imagen RGB y las retroproyectamos a 3D utilizando la imagen de profundidad. Aquí, tenemos un enfoque basado en instancias en lugar de tener un cálculo punto por punto para reconstruir, que fue realizado anteriormente por Concept-Fusion [29]. Esta extracción de máscara de características por objeto también nos ayuda a calcular incrustaciones, que preservan la naturaleza de conjunto abierto de este pipeline.

\

:::info Autores:

(1) Laksh Nanwani, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(2) Kumaraditya Gupta, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(3) Aditya Mathur, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(4) Swayam Agrawal, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(5) A.H. Abdul Hafez, Universidad Hasan Kalyoncu, Sahinbey, Gaziantep, Turquía;

(6) K. Madhava Krishna, Instituto Internacional de Tecnología de la Información, Hyderabad, India.

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC by-SA 4.0 Deed (Atribución-Compartir igual 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección [email protected] para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.