摘要和1 引言
相關工作
2.1. 視覺與語言導航
2.2. 語義場景理解和實例分割
2.3. 3D場景重建
方法論
3.1. 數據收集
3.2. 從圖像中獲取開放集語義信息
3.3. 創建開放集3D表示
3.4. 語言引導導航
實驗
4.1. 定量評估
4.2. 定性結果
結論和未來工作、披露聲明和參考文獻
在本節中,我們討論我們的視覺語言導航(VLN)方法的流程,該方法採用O3D-SIM。我們首先概述我們提出的流程,然後深入分析其組成步驟。我們方法論的初始階段涉及數據收集,包括一組RGB-D圖像以及外部和內部相機參數,這些首先被概述。隨後,我們轉向創建開放集3D語義實例地圖。此過程分為兩個主要階段:首先,我們從圖像中提取開放集語義實例信息;接著,我們利用收集到的開放集信息將3D點雲組織成開放集3D語義實例地圖。我們討論的最後部分聚焦於VLN模組,我們談論其實現和功能。
\ O3D-SIM創建的流程如圖2所示。創建O3D-SIM的第一步,在3.2節中介紹,是從輸入圖像的RGB序列中提取開放集語義實例信息。這些信息包括,對於每個物體實例,遮罩信息和由CLIP [9]和DINO [10]嵌入特徵表示的語義特徵。第二步,在3.3節中介紹,使用這些開放集語義實例信息將輸入的3D點雲聚類成開放集語義3D物體地圖,見圖2和3。通過隨時間應用RGB-D圖像序列,該操作得到增量改進。
\
:::info 作者:
(1) Laksh Nanwani,印度海德拉巴國際信息技術學院;此作者對本工作貢獻相同;
(2) Kumaraditya Gupta,印度海德拉巴國際信息技術學院;
(3) Aditya Mathur,印度海德拉巴國際信息技術學院;此作者對本工作貢獻相同;
(4) Swayam Agrawal,印度海德拉巴國際信息技術學院;
(5) A.H. Abdul Hafez,土耳其加濟安泰普薩欣貝伊哈桑卡利永庫大學;
(6) K. Madhava Krishna,印度海德拉巴國際信息技術學院。
:::
:::info 本論文可在arxiv上獲取,採用CC by-SA 4.0 Deed(署名-相同方式共享4.0國際)許可證。
:::
\


