機器之心專欄。
機器之心編輯部
為了滿足元宇宙中對 3D 創意工具日益增長的需求,3D 內容生成 (3D AIGC) 最近受到了相當大的關注。 而且,3D內容創作在質量和速度方面取得了長足的進步。
雖然當前的前饋生成模型可以在幾秒鐘內生成 3D 物件,但它們的解像度受到訓練期間所需的密集計算的限制,導致內容質量低下。 這就引出了乙個問題,你能在短短 5 秒內製作出乙個高解像度、高質量的 3D 物件嗎?
在本文中,來自北京大學、南洋理工大學S-Lab和上海人工智慧實驗室的研究人員提出了一種:新框架 LGM,大高斯模型在短短 5 秒內從單個視角**或文字輸入生成高解像度、高質量的 3D 物件。
目前,** 和 model 權重都已開源。 研究人員還提供了乙個演示供大家試用。
*標題:LGM:用於高解像度 3D 內容創作專案的大型多檢視高斯模型 主頁:
* demo:
為了實現這一目標,研究人員面臨兩個挑戰:
以有限的計算量進行高效的 3D 表徵:現有的 3D 生成工作使用基於三平面的 nerf 作為 3D 表示和渲染管線,其對場景的密集建模和光線追蹤體積渲染技術極大地限制了其訓練解像度 (128 128),導致最終內容模糊和質量差。
高解像度的 3D 骨幹生成網路:現有的 3D 生成工作使用密集的 transformer 作為骨幹網路,以保證足夠密集的引數數量來模擬通用物件,但這在一定程度上犧牲了訓練解像度,導致最終的 3D 物件質量不高。
為此,我們提出了一種新的方法,從四個角度合成高解像度3D表示**,然後使用現有的文字到多檢視影象或單影象到多檢視影象模型支援高質量的文字到 3D 和影象到 3D 任務
技術LGM 核心模組是大型多檢視高斯模型。該方法以高斯濺射為靈感,以高效輕量級的非對稱u-net為骨幹網路,從四個視角直接剔除高解像度高斯基元,最終在任何視角下進行渲染。
具體來說,骨幹網路u-net接受來自四個視角的影象和相應的普呂克坐標,並從多個視角輸出固定數量的高斯特徵。 這組高斯特徵直接融合到最終的高斯元素中,並且可以進行差分渲染以獲得來自不同視角的影象。
在此過程中,利用交叉視角自注意力機制對低解像度特徵圖上不同視角之間的相關性進行建模,同時保持較低的計算開銷。
需要注意的是,在高解像度下有效地訓練這樣的模型並不容易。 為了實現穩健的訓練,研究人員仍然面臨以下兩個問題。
一是訓練階段使用在obj**erse資料集中渲染的3D一致多檢視,而在推理階段,則直接使用現有模型從文字或影象合成多個檢視。 而且由於在基於模型綜合的多檢視中總會存在多檢視不一致的問題,為了彌補這個領域差距,該文提出一種基於網格畸變的資料增強策略:對影象空間中三個視角的**進行隨機畸變,模擬多個視角的不一致
其次,由於推理階段生成的多視角**並不能嚴格保證相機透視的三維幾何形狀的一致性,因此本文還利用3個角度對相機姿態的隨機擾動來模擬這一現象,使模型在推理階段更加魯棒
最後,通過可微分渲染將生成的Goussky渲染為相應的影象,並通過監督學習直接對2D影象進行端到端學習。
訓練完成後,LGM 可以使用現有的影象到多檢視或文字到多檢視擴散模型來實現高質量的文字到 3D 和影象到 3D 任務。
給定相同的輸入文字或影象,該方法可以生成各種高質量的 3D 模型。
為了進一步支援下游圖形任務,研究人員還提出了一種有效的方法,將生成的高斯表示轉換為平滑和紋理網格:
詳情請參閱原文**。