【溪湖热门商务模特】提速199倍!清華&哈佛發布三維語義高斯潑濺LangSplat|CVPR‘24

时间:2024-09-20 08:35:58来源:智聯園作者:聖彼得堡外圍
文本)訓練的提速,

LangSpla采用tile-based的倍清三維高斯潑濺技術來渲染語義特征,構建三維語義場以支持在三維空間中的华a哈佛開放文本查詢最近越來越受到關注 。 Fl(v)代表在像素 處以語義層次l渲染的发布語義嵌入 。團隊使三維語義場能夠響應基於文本的维语查詢 。論文視頻累計瀏覽量超過100,义高溪湖热门商务模特000 ,能夠實現準確高效的斯泼開放文本查詢。



這裏是oi第i個高斯的不透明度,

層次語義學習

在本文中,倍清部分和整體層次的华a哈佛掩碼。

LangSplat方法結合三維高斯潑濺技術重建三維語義場  ,发布使用的维语數據集包括LERF和3D-OVS。提高了基於語義的义高查詢的準確性 。使其適合實時應用。斯泼用基於tile的提速桂阳高端外围光柵化策略進行渲染 :



其中 ,表征一個複雜場景可能需要數百萬個3D點。其D維潛在空間可能非常緊湊 。為每一組掩碼去除冗餘的掩碼 。值得注意的是 ,從而降低了計算量 。

現有方法在NeRF的基礎上嵌入CLIP語義特征 ,LangSplat在1440×1080分辨率的圖像上,



結合三維高斯潑濺技術重建三維語義場

人類生活在一個三維世界中 ,特別是,事實上 ,對於每個輸入圖像 ,

首先訓練特定場景下的語義自編碼器,它使用包含語義特征嵌入的3D高斯來表示3D場景。團隊將獲得由SAM分割的桂阳高端外围模特數百個掩碼,從而避免了NeRF中計算成本高昂的渲染過程。本文深入研究了這一問題  ,並通過文本語言描述三維場景。團隊提出了3D語義高斯 ,團隊在這裏訓練的語義場Φ是特定於場景的,

結果 :LangSplat顯著優於先前的最先進方法 。解決了三維語義場的邊界模糊問題 。並采用基於tile的光柵化器以保持渲染效率:



其中 ,采用了如下方法 :

層次語義學習:LangSplat利用Segment Anything Model(SAM)學習層次語義,“部分”和“子部分”層次上都有不同的分割圖,團隊利用SAM來獲得實例級的精確對象掩碼,場景中的所有分割區域在CLIP潛在空間中稀疏分布,為每個高斯增加三個語義嵌入{fs, fp, fw}  。這顯著少於CLIP訓練中使用的桂阳高端商务模特圖像數量 。在每個高斯點上編碼了從CLIP提取的語義特征 。展示了LangSplat各組成部分的有效性 。查詢速度比之前的SOTA方法LERF快了199倍  !

清華&哈佛團隊提出LangSplat,在開放文本目標定位和語義分割任務上達到SOTA性能 。CLIP模型是通過4億對(圖像 ,

實驗結果



實驗設置:實驗測試了該方法在開放詞匯3D對象定位和語義分割任務上的性能,團隊繼續為每個分割區域提取CLIP特征。它在1440×1080分辨率下比LERF快199倍,這些嵌入源自CLIP特征,

為了解決這個問題 ,

3D語義高斯潑濺 :LangSplat引入了一種新的技術 ,



具體來說 ,LangSplat構建特定場景的桂阳热门外围語義自編碼器將這些文本語義特征降維。這種匹配減少了模糊性 ,

團隊強烈推薦查看在項目主頁中的更多視頻結果 。在不引入DINO特征的情況下獲得了更準確的語義場 。每個高斯分布G(x)由均值μ∈R^3和協方差矩陣∑描述 :】




3D高斯投影到2D圖像平麵上後 ,從三維語義場景渲染的每個像素都具有與其精確語義上下文相匹配的CLIP特征。

  • 通過采用層次語義和新的渲染技術,團隊可以直接在這些預定義的尺度上查詢三維語義場 。
  • 通過使用場景特定的自動編碼器,論文代碼已開源。
  • 與以前的方法相比,有效地將場景劃分為語義上有意義的區域 。 ci是第i個高斯的顏色,通過直接將語義信息引入高斯中,

    為降低內存消耗並提高效率,LangSplat提高了3D語義場的精確度  。無法清晰地區分目標的邊界 。團隊還明確地建模了SAM定義的語義層次 ,減少了處理高維數據所需的計算和內存開銷。因此,這種方法比NeRF-based的方法渲染過程更快。

    廣泛的實驗結果表明  ,由於團隊在“整體” 、





    項目主頁: https://langsplat.github.io/
    論文: https://arxiv.org/pdf/2312.16084.pdf
    視頻: https://youtu.be/K_9S1ODAc?si=gfo5TrLK-htyWyuT
    開源代碼: https://github.com/minghanqin/LangSplat

    特定場景的語義自編碼器

    作為一種顯式建模方法,得到的像素對齊的語義嵌入是:




    如此,

    LangSplat團隊 投稿
    量子位 | 公眾號 QbitAI

    入選CVPR 2024 Highlight的三維語義高斯潑濺最新成果 ,通過獲得的分割圖,

    現有基於NeRF的方法的三維語義場比較模糊 ,增強後的高斯被命名為3D語義高斯 。捕捉了SAM提供的層次語義 。

    特定場景的語義自編碼器 :為了緩解高維語義特征嵌入導致的內存out of memory問題,



    該工作目前在(Twitter)上受到廣泛關注,分別為:

    • 通過引入帶有語義特征的3D高斯潑濺來進行三維場景感知。但它們麵臨著耗時的渲染過程 。即3D高斯潑濺 ,這消除了在多個絕對尺度上進行密集搜索的需要 ,N表示瓦片中的高斯數量,大多數現有方法使用NeRFs進行3D建模 ,



      可視化和消融研究 :論文包括了詳細的可視化和消融研究 ,

      這些分割圖準確地勾勒出對象在其層次結構中的邊界 ,LangSplat在開放文本目標定位和語義分割任務上的性能顯著超過了之前的SOTA方法LERF。

      3D語義高斯潑濺

      在一組2D圖像上獲得語義嵌入後 , C(v)是在像素 v 處渲染的顏色 。Gi2D (⋅)代表投影到二維上的第 i 個高斯的函數。顯示出在速度和效率上的顯著提高 。而不是直接學習高維的CLIP語義特征,團隊將一個32×32點提示的常規網格輸入SAM,直接在高維的CLIP潛空間直接學習高斯的語義特征會顯著增加內存消耗,以解決點模糊性問題 。將場景中的CLIP嵌入映射到低維潛在空間。從而得到三個分割圖 : Ms,Mp,Mw。數學上,團隊提出了基於3D高斯散射的3D語義場建模方法。

      具體來說,容易導致“內存不足”的問題 。分別代表子部分、這意味著團隊可以利用場景先驗知識壓縮CLIP特征。以獲得三個不同語義層次下的掩碼 ,實現了顯著的速度提升 ,這種3D高斯散射方法明確地將3D場景表示為各向異性的3D高斯分布的集合 ,然後用這些掩碼對應的圖像區域提取像素對齊的特征。

      https://langsplat.github.io/



      具體方法

      首先來看LangSplat的主要貢獻,

      在本文中 ,使查詢過程更加高效。

      此外,

      每個過濾後的掩碼集合獨立地根據其各自的語義層次做全圖分割 ,團隊可以通過建模3D點和2D像素之間的關係來學習一個3D語義場。穩定性分值和掩碼之間的重疊率 ,查詢速度比LERF快了199倍。使團隊能夠通過基於場景的自編碼器進一步壓縮這些CLIP特征。

      然而 ,提出使用SAM學習多層次語義,然後在場景特定的低維latent space上學習語義特征 ,LangSplat則通過結合三維高斯潑濺,



      然後基於SAM預測的IoU分值、團隊引入了基於場景的語義自編碼器 ,

  • 相关内容