Resumo e 1 Introdução
Trabalhos Relacionados
2.1. Navegação de Visão e Linguagem
2.2. Compreensão Semântica de Cena e Segmentação de Instância
2.3. Reconstrução de Cena 3D
Metodologia
3.1. Recolha de Dados
3.2. Informação Semântica de Conjunto Aberto a partir de Imagens
3.3. Criação da Representação 3D de Conjunto Aberto
3.4. Navegação Guiada por Linguagem
Experiências
4.1. Avaliação Quantitativa
4.2. Resultados Qualitativos
Conclusão e Trabalho Futuro, Declaração de Divulgação e Referências
Nesta secção, discutimos o pipeline do nosso método de Navegação de Visão e Linguagem (VLN), que emprega O3D-SIM. Começamos com uma visão geral do nosso pipeline proposto e depois apresentamos uma análise aprofundada dos seus passos constituintes. A fase inicial da nossa metodologia envolve a recolha de dados, consistindo num conjunto de imagens RGB-D e parâmetros extrínsecos e intrínsecos da câmara, que são delineados primeiro. Subsequentemente, passamos para a criação do Mapa de Instância Semântica 3D de Conjunto Aberto. Este processo é dividido em duas etapas principais: inicialmente, extraímos informação de instância semântica de conjunto aberto das imagens; após isto, utilizamos a informação de conjunto aberto recolhida para organizar a nuvem de pontos 3D num mapa de instância semântica 3D de conjunto aberto. A parte final da nossa discussão concentra-se no módulo VLN, onde falamos sobre a sua implementação e funcionalidade.
\ O pipeline da criação do O3D-SIM é representado na Fig.2. O primeiro passo da criação do O3D-SIM, apresentado na Secção 3.2, é a extração da informação de instância semântica de conjunto aberto da sequência RGB de imagens de entrada. Esta informação inclui, para cada instância de objeto, a informação de máscara e as características semânticas representadas pelas características de incorporação CLIP [9] e DINO [10]. O segundo passo, apresentado na Secção 3.3, usa esta informação de instância semântica de conjunto aberto para agrupar a nuvem de pontos 3D de entrada num mapa de objetos semânticos 3D de conjunto aberto, ver Figuras 2 e 3. A operação é melhorada incrementalmente aplicando a sequência de imagens RGB-D ao longo do tempo.
\
:::info Autores:
(1) Laksh Nanwani, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;
(2) Kumaraditya Gupta, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;
(3) Aditya Mathur, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;
(4) Swayam Agrawal, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;
(5) A.H. Abdul Hafez, Universidade Hasan Kalyoncu, Sahinbey, Gaziantep, Turquia;
(6) K. Madhava Krishna, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia.
:::
:::info Este artigo está disponível no arxiv sob a licença CC by-SA 4.0 Deed (Atribuição-CompartilhaIgual 4.0 Internacional).
:::
\


