詳細介紹用於 VLN 的 O3D-SIM 流程。它從 RGB-D 圖像中提取開放集語義實例信息(遮罩、CLIP/DINO 特徵)詳細介紹用於 VLN 的 O3D-SIM 流程。它從 RGB-D 圖像中提取開放集語義實例信息(遮罩、CLIP/DINO 特徵)

語義實例提取:CLIP 和 DINO 特徵用於 3D 映射

2025/12/11 03:00

摘要和1 引言

  1. 相關工作

    2.1. 視覺與語言導航

    2.2. 語義場景理解和實例分割

    2.3. 3D場景重建

  2. 方法論

    3.1. 數據收集

    3.2. 從圖像中獲取開放集語義信息

    3.3. 創建開放集3D表示

    3.4. 語言引導導航

  3. 實驗

    4.1. 定量評估

    4.2. 定性結果

  4. 結論和未來工作、披露聲明和參考文獻

3. 方法論

在本節中,我們討論我們的視覺語言導航(VLN)方法的流程,該方法採用O3D-SIM。我們首先概述我們提出的流程,然後深入分析其組成步驟。我們方法論的初始階段涉及數據收集,包括一組RGB-D圖像以及外部和內部相機參數,這些首先被概述。隨後,我們轉向創建開放集3D語義實例地圖。此過程分為兩個主要階段:首先,我們從圖像中提取開放集語義實例信息;接著,我們利用收集到的開放集信息將3D點雲組織成開放集3D語義實例地圖。我們討論的最後部分聚焦於VLN模組,我們談論其實現和功能。

\ O3D-SIM創建的流程如圖2所示。創建O3D-SIM的第一步,在3.2節中介紹,是從輸入圖像的RGB序列中提取開放集語義實例信息。這些信息包括,對於每個物體實例,遮罩信息和由CLIP [9]和DINO [10]嵌入特徵表示的語義特徵。第二步,在3.3節中介紹,使用這些開放集語義實例信息將輸入的3D點雲聚類成開放集語義3D物體地圖,見圖2和3。通過隨時間應用RGB-D圖像序列,該操作得到增量改進。

\

:::info 作者:

(1) Laksh Nanwani,印度海德拉巴國際信息技術學院;此作者對本工作貢獻相同;

(2) Kumaraditya Gupta,印度海德拉巴國際信息技術學院;

(3) Aditya Mathur,印度海德拉巴國際信息技術學院;此作者對本工作貢獻相同;

(4) Swayam Agrawal,印度海德拉巴國際信息技術學院;

(5) A.H. Abdul Hafez,土耳其加濟安泰普薩欣貝伊哈桑卡利永庫大學;

(6) K. Madhava Krishna,印度海德拉巴國際信息技術學院。

:::


:::info 本論文可在arxiv上獲取,採用CC by-SA 4.0 Deed(署名-相同方式共享4.0國際)許可證。

:::

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。