大型多視角高斯模型LGM在5秒內生成高質量的3D物體,可以播放

Mondo 健康 更新 2024-02-20

機器之心專欄。

機器之心編輯部

為了滿足元宇宙中對 3D 創意工具日益增長的需求,3D 內容生成 (3D AIGC) 最近受到了相當大的關注。 而且,3D內容創作在質量和速度方面取得了長足的進步。

雖然當前的前饋生成模型可以在幾秒鐘內生成 3D 物件,但它們的解像度受到訓練期間所需的密集計算的限制,導致內容質量低下。 這就引出了乙個問題,你能在短短 5 秒內製作出乙個高解像度、高質量的 3D 物件嗎?

在本文中,來自北京大學、南洋理工大學S-Lab和上海人工智慧實驗室的研究人員提出了一種:新框架 LGM,大高斯模型在短短 5 秒內從單個視角**或文字輸入生成高解像度、高質量的 3D 物件。

目前,** 和 model 權重都已開源。 研究人員還提供了乙個演示供大家試用。

*標題:LGM:用於高解像度 3D 內容創作專案的大型多檢視高斯模型 主頁:

* demo:

為了實現這一目標,研究人員面臨兩個挑戰:

以有限的計算量進行高效的 3D 表徵:現有的 3D 生成工作使用基於三平面的 nerf 作為 3D 表示和渲染管線,其對場景的密集建模和光線追蹤體積渲染技術極大地限制了其訓練解像度 (128 128),導致最終內容模糊和質量差。

高解像度的 3D 骨幹生成網路:現有的 3D 生成工作使用密集的 transformer 作為骨幹網路,以保證足夠密集的引數數量來模擬通用物件,但這在一定程度上犧牲了訓練解像度,導致最終的 3D 物件質量不高。

為此,我們提出了一種新的方法,從四個角度合成高解像度3D表示**,然後使用現有的文字到多檢視影象或單影象到多檢視影象模型支援高質量的文字到 3D 和影象到 3D 任務

技術LGM 核心模組是大型多檢視高斯模型。該方法以高斯濺射為靈感,以高效輕量級的非對稱u-net為骨幹網路,從四個視角直接剔除高解像度高斯基元,最終在任何視角下進行渲染。

具體來說,骨幹網路u-net接受來自四個視角的影象和相應的普呂克坐標,並從多個視角輸出固定數量的高斯特徵。 這組高斯特徵直接融合到最終的高斯元素中,並且可以進行差分渲染以獲得來自不同視角的影象。

在此過程中,利用交叉視角自注意力機制對低解像度特徵圖上不同視角之間的相關性進行建模,同時保持較低的計算開銷。

需要注意的是,在高解像度下有效地訓練這樣的模型並不容易。 為了實現穩健的訓練,研究人員仍然面臨以下兩個問題。

一是訓練階段使用在obj**erse資料集中渲染的3D一致多檢視,而在推理階段,則直接使用現有模型從文字或影象合成多個檢視。 而且由於在基於模型綜合的多檢視中總會存在多檢視不一致的問題,為了彌補這個領域差距,該文提出一種基於網格畸變的資料增強策略:對影象空間中三個視角的**進行隨機畸變,模擬多個視角的不一致

其次,由於推理階段生成的多視角**並不能嚴格保證相機透視的三維幾何形狀的一致性,因此本文還利用3個角度對相機姿態的隨機擾動來模擬這一現象,使模型在推理階段更加魯棒

最後,通過可微分渲染將生成的Goussky渲染為相應的影象,並通過監督學習直接對2D影象進行端到端學習。

訓練完成後,LGM 可以使用現有的影象到多檢視或文字到多檢視擴散模型來實現高質量的文字到 3D 和影象到 3D 任務。

給定相同的輸入文字或影象,該方法可以生成各種高質量的 3D 模型。

為了進一步支援下游圖形任務,研究人員還提出了一種有效的方法,將生成的高斯表示轉換為平滑和紋理網格:

詳情請參閱原文**。

相關問題答案

    10 Gb 多模光纖傳輸距離

    千兆多模光纖的傳輸距離受多種因素影響,包括光纖的型別 光纖的質量 傳輸速率 光源 衰減等因素。一般來說,千兆多模光纖的傳輸距離約為公尺,但實際傳輸距離需要考慮其他因素的影響。以下是影響 Gb 多模光纖傳輸距離的一些因素 光纖型別 Gb 多模光纖有多種型別,例如 OM OM OM 和 OM。OM和OM...

    多角度研究專利無效案例,提高商業技能和素養 貿易促進專家

    無效案例引發的反思 作者 江雪梅,中國國際貿易促進委員會專利商標局。編輯 布魯斯。 引言 作為專利律師,筆者此前認為,在專利從申請到執行的整個過程中,申請人與審查員在保護範圍的合理界定上,無效宣告請求人與專利權人在專利權有效性上存在著各種對抗或博弈,因此應更加關注如何抓住有利的突破口,如何提高辯護技...

    Gemini 的開源版本誕生了!全能多模態模型Emu2上榜熱點,多工重新整理SOTA

    編輯 桃子好睏。最強全能多式聯運模型來了!就在近日,智源教育學院發布了開源行業的雙子座EMU,一氣呵成重新整理了多個SOTA。在過去的 個月裡,我們看到了 AI 領域的許多重要時刻。LLAMA ALPACA等眾多開源模型競相發布,這不僅可以媲美閉源模型的效能,也為大家提供了投身AI的機會 年月,St...

    AI 大型模型主題 DocLLM,乙個理解大型語言模型的多模態文件

    今天分享的是 AI大模型系列深度研究報告 AI 大型模型主題 DOCLM,一種用於多模態文件理解的大型語言模型 報告製作人 浙商 專題報告 人工智慧學院 發票 收據 合同 訂單 等企業相關單據是企業語料庫的重要組成部分。這些文件通常具有複雜的布局和自定義排版,展示了模板 格式和質量的多樣性。雖然文件...

    大型風力發電機葉片模溫控制、風電模模溫機介紹

    由於風力發電機葉片模具體積較大,其加熱形式主要是通過模具內內建的鋼管 銅管或流道來實現間接加熱。點選這裡了解更多關於模溫機的資訊。對於葉片等大型模具,由於實際工作現場一般都有吊裝裝置,廠房一般更大更高,這樣即使採用環境加熱,熱量也極有可能自然地集中在車間的中上部空間,而對於靠近地面的葉片模具來說,很...