X Dreamer 在 2D 和 3D 生成領域之間架起維度壁的橋梁,將高質量的文字轉換為 3D 生成

Mondo 科技 更新 2024-01-28

機器之心柱。

《機器之心》編輯部

本文介紹了乙個名為 X-Dreamer 的框架,該框架由 CG-LoRa 和 AMA loss 兩個關鍵創新組成,以彌合文字到 2D 和文字到 3D 之間的領域差距,實現高質量的 3D 生成。

近年來,在預訓練擴散模型的推動下,在自動文字到3D內容建立方面取得了重大進展[1,2,3]。 其中,DreamFusion [4] 引入了一種有效的方法,利用預先訓練的 2D 擴散模型 [5] 從文字中自動生成 3D 資產,無需專門的 3D 資產資料集。

DreamFusion 引入的關鍵創新之一是分餾取樣 (SDS) 演算法。 該演算法利用預先訓練的 2D 擴散模型來評估單個 3D 表示,例如 NERF [6],以確保從任何相機角度渲染的影象與給定文字高度一致。 受突破性SDS演算法的啟發,已經出現了一些工作[7,8,9,10,11],通過應用預先訓練的2D擴散模型來推進文字到3D的生成任務。

雖然通過利用預先訓練的文字到 2D 擴散模型,在文字到 3D 生成方面取得了重大進展,但 2D 影象和 3D 資產之間仍然存在顯著的領域差距。 這種區別在圖1中得到了清晰的說明。

首先,文字轉 2D 模型生成獨立於相機的生成結果,專注於從特定角度生成高質量影象,而忽略其他角度。 相比之下,3D 內容建立與相機引數(如位置、拍攝角度和視野)有著錯綜複雜的聯絡。 因此,文字轉 3D 模型必須在所有可能的相機引數上產生高質量的結果。

此外,文字轉 2D 生成模型必須同時生成前景和背景元素,同時保持影象的整體連貫性。 相反,文字到 3D 的生成模型只需要專注於建立前景物件。 這種區別允許文字轉 3D 模型分配更多資源和注意力,以準確表示和生成前景物件。 因此,在直接使用預訓練的 2D 擴散模型建立 3D 資產時,文字到 2D 和文字到 3D 生成之間的域差距構成了明顯的效能障礙。

圖 1 文字轉 2D 生成模型(左)和文字轉 3D 生成模型(右)在同一文字提示下的輸出,即"a statue of leonardo dicaprio's head.”。

為了解決這個問題,X-Dreamer被提出,這是一種高質量文字到3D內容創作的新方法,有效地彌合了文字到2D和文字到3D生成之間的領域差距。

X-Dreamer 的關鍵元件是兩個創新設計:相機引導的低秩自適應 (CG-LoRa) 和注意力掩碼對齊 (AMA) 損失。

首先,現有方法[7,8,9,10]通常使用2D預訓練擴散模型[5,12]進行文字到3D的生成,缺乏與相機引數的內在關係。 為了解決這一限制並確保 X-Dreamer 產生直接受相機引數影響的結果,引入了 CG-LoRa 來調整預訓練的 2D 擴散模型。 需要注意的是,CG-LoRa 的引數是在每次迭代期間根據相機資訊動態生成的,從而在文字到 3D 模型和相機引數之間建立了穩健的關係.

其次,預訓練的文字到2D擴散模型將注意力分配給前景和背景的生成,而3D資產的建立則更需要關注前景物件的準確生成。 為了解決這個問題,該文提出AMA損失,利用3D物體的二元掩碼來引導預訓練擴散模型的注意力圖,從而優先建立前景物體。 通過合併此模組,X-Dreamer 可以優先生成前景物件,從而顯著提高生成的 3D 內容的整體質量。

專案主頁: github homepage:

*位址:X-Dreamer在文字到3D生成領域的貢獻如下:

*提出了一種新穎的方法,X-Dreamer,用於高質量文字到3D的內容建立,有效地彌合了文字到2D和文字到3D生成之間的主要差距。

為了增強生成結果與相機視角之間的對齊性,提出了CG-LoRa,它利用相機資訊為2D擴散模型動態生成特定引數。

為了在文字轉 3D 模型中優先建立前景物件,引入了 AMA 損失,利用前景 3D 物件的二進位掩碼來引導 2D 擴散模型的注意力圖。

方法:

X-Dreamer由兩個主要階段組成:幾何習和外觀習。 對於幾何習,DMTet作為3D表示並使用3D橢球體進行初始化,初始化時的損失函式是均方誤差(MSE)損失。 隨後,使用分數蒸餾取樣 (SDS) 損失和建議的 AMA 損失對 DMTet 和 CG-LoRa 進行了優化,以確保 3D 表示與輸入文字提示之間的一致性。

對於外觀習,建模與雙向反射分布函式(BRDF)一起使用。 具體來說,具有可訓練引數的 MLP 用於材料表面。 與幾何習階段類似,SDS損失和AMA損失用於優化MLP和CG-LoRa的可訓練引數,以實現3D表示和文字提示之間的對齊。 圖 2 說明了 X-Dreamer 的詳細配置。

圖 2 X-Dreamer 的概述,包括幾何形狀 習 和外觀 習。

習幾何學習

外觀習appearance learning

camera-guided low-rank adaptation (cg-lora)

為了解決文字到2D和文字到3D生成任務之間的域差距導致的次優3D結果生成問題,X-Dreamer提出了相機引導的低秩自適應。

如圖 3 所示,相機引數和方向感知文字用於指導 CG-LoRa 中的引數生成,使 X-Dreamer 能夠有效地感知相機的位置和方向資訊。

圖 3 相機引導的 CG-LoRa 原理圖。

attention-mask alignment loss (ama loss)

*試驗了四個 NVIDIA RTX 3090 GPU 和 PyTorch 庫。 為了計算SDS損失,使用了使用Hugging Face Diffusers實現的穩定擴散模型。 對於 DMTET 和材質編碼器,分別將它們實現為兩層 MLP 和單層 MLP,隱藏層尺寸為 32。

文字到 3D 的生成從橢圓體開始

*顯示 X-Dreamer 使用橢球體作為初始幾何體生成的文字到 3D 的結果,如圖 4 所示。 結果證明,X-Dreamer能夠生成高質量和逼真的3D物件,這些物件與輸入的文字提示準確對應。

圖 4 文字到 3D 的生成從橢圓體開始。

從粗粒度網格開始,用於生成文字到 3D 的網格

雖然可以從 Internet 建立大量粗粒度網格,但直接從這些網格建立 3D 內容通常會導致效能不佳,因為缺少幾何細節。 然而,與 3D 橢球體相比,這些網格可以為 X-Dreamer 提供有關 3D 形狀的更好先驗資訊。

因此,除了使用橢圓體外,還可以使用粗粒度引導網格來初始化 dmtet。 如圖 5 所示,X-Dreamer 可以基於給定文字生成具有精確幾何細節的 3D 資產,即使提供的粗粒度網格缺乏細節也是如此。

圖 5 文字到 3D 的生成從粗粒度網格開始。

定性比較

為了評估 X-Dreamer 的有效性,將其與四種 SOTA 方法進行了比較:Dreamfusion [4]、Magic3D [8]、Fantasia3D [7] 和 ProlificDreamer [11],如圖 6 所示。

與基於SDS的方法相比[4,7,8],X-Dreamer在生成高質量和逼真的3D資產方面優於它們。 此外,與基於 VSD 的方法 [11] 相比,X-Dreamer 生成的 3D 內容具有可比甚至更好的視覺效果,同時需要的優化時間要短得多。 具體來說,X-Dreamer的幾何形狀和外觀的習過程只需要大約27分鐘,而ProlificDreamer需要8個多小時。

圖6與現有技術(SOTA)方法進行了比較。

消融實驗

模組消融。 為了深入了解 CG-LoRa 和 AMA 損失的能力,進行了消融研究,其中每個模組都被單獨招募以評估其影響。 如圖 7 所示,燒蝕結果顯示,當 CG-LoRa 被排除在 X-Dreamer 之外時,生成的 3D 物件的幾何形狀和外觀質量顯著下降。

此外,X-Dreamer 丟失的 AMA 也會對生成的 3D 資產的幾何形狀和外觀保真度產生不利影響。 這些燒蝕實驗為CG-LoRa和AMA損耗在增強最終3D物體的幾何形狀、外觀和整體質量方面的單獨貢獻提供了有價值的研究。

圖 7 X-Dreamer 的消融研究。

有和沒有 AMA 損失的注意力圖比較。

引入 AMA 損失的目的是將注意力從去噪過程引導到前景物件。 這是通過將 SD 的注意力圖與 3D 物件的渲染蒙版對齊來實現的。 為了評估AMA損失在實現這一目標方面的有效性,在幾何習和美容習階段視覺化了有和沒有AMA損失的SD的注意力圖。

如圖 8 所示,可以看出,新增 AMA 損失不僅改善了生成的 3D 資產的幾何形狀和外觀,而且還將 SD 的注意力特別集中在前景物件區域。 視覺化證實了AMA損失在引導SD注意力方面的有效性,從而提高了幾何和修飾習階段前景物體的質量和焦點。

圖 8 注意力圖、渲染蒙版和渲染影象的視覺化,有和沒有 AMA 損失。

這項研究引入了乙個名為 X-Dreamer 的開創性框架,旨在通過解決文字到 2D 和文字到 3D 生成之間的領域差距來增強文字到 3D 的生成。 為了實現這一點,首先提出了 CG-LoRa,該模組將 3D 相關資訊(包括方向感知文字和相機引數)整合到預訓練的穩定擴散 (SD) 模型中。 通過這樣做,本文能夠有效地捕獲與 3D 域相關的資訊。 此外,本文還設計了AMA損失,使SD生成的注意力圖與3D物件的渲染蒙版對齊。 AMA 損失的主要目標是將文字轉 3D 模型的焦點引導到前景物件的生成方向上。 通過大量的實驗,本文對所提方法的有效性進行了全面評估,證明了X-Dreamer能夠根據給定的文字提示生成高質量、逼真的3D內容。

引用。 1] jonathan ho, ajay jain, and pieter abbeel. denoising diffusion probabilistic models. advances in neural information processing systems, 33:6840–6851, 2020.

2] jascha sohl-dickstein, eric weiss, niru maheswaranathan, and surya ganguli. deep unsupervised learning using nonequilibrium thermodynamics. in international conference on machine learning, pages 2256–2265. pmlr, 2015.

3] yang song, jascha sohl-dickstein, diederik p kingma, abhishek kumar, stefano ermon, and ben poole. score-based generative modeling through stochastic differential equations. arxiv preprint arxiv:2011.13456, 2020.

4] ben poole, ajay jain, jonathan t barron, and ben mildenhall. dreamfusion: text-to-3d using 2d diffusion. arxiv preprint arxiv:2209.14988, 2022.

5] chitwan saharia, william chan, saurabh saxena, lala li, jay whang, emily l denton, kamyar ghasemipour, raphael gontijo lopes, burcu karagol ayan, tim salimans, et al. photorealistic text-to-image diffusion models with deep language understanding. advances in neural information processing systems, 35:36479–36494, 2022.

6] ben mildenhall, pratul p srinivasan, matthew tancik, jonathan t barron, r**i ramamoorthi, and ren ng. nerf: representing scenes as neural radiance fields for view synthesis. communications of the acm, 65 (1):99–106, 2021.

7] rui chen, yongwei chen, ningxin jiao, and kui jia. fantasia3d: disentangling geometry and appearance for high-quality text-to-3d content creation. arxiv preprint arxiv:2303.13873, 2023.

8] chen-hsuan lin, jun gao, luming tang, towaki takikawa, xiaohui zeng, xun huang, karsten kreis, sanja fidler, ming-yu liu, and tsung-yi lin. magic3d: high-resolution text-to-3d content creation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 300–309, 2023.

9] gal metzer, elad richardson, or patashnik, raja giryes, and daniel cohen-or. latent-nerf for shape-guided generation of 3d shapes and textures. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12663–12673, 2023.

10] haochen wang, xiaodan du, jiahao li, raymond a yeh, and greg shakhnarovich. score jacobian chaining: lifting pretrained 2d diffusion models for 3d generation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12619–12629, 2023.

11] zhengyi wang, cheng lu, yikai wang, fan bao, chongxuan li, hang su, and jun zhu. prolificdreamer: high-fidelity and diverse text-to-3d generation with variational score distillation. arxiv preprint arxiv:2305.16213, 2023.

12] robin rombach, andreas blattmann, dominik lorenz, patrick esser, and bjorn ommer. high-resolution image synthesis with latent diffusion models. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 10684–10695, 2022.

相關問題答案

    常用的3D建模軟體,常用的3D建模軟體有哪些?

    常用的D建模軟體有 autodesk maya 該軟體是最常用的D動畫軟體之一,用於建立高質量的D模型和動畫。autodesk ds max該軟體也是一款非常流行的D建模軟體,提供了豐富的建模工具和強大的渲染引擎。blender 這是一款開源的D建模軟體,具有強大的功能和使用者友好的介面。zbrus...

    3D立體影院裝置

    D立體影院裝置是一種創新的技術產品,通過其先進的視聽技術和沉浸式體驗,為觀眾提供身臨其境的視聽體驗。該裝置在娛樂行業得到了廣泛的應用,不僅在電影院,而且逐漸在家庭娛樂領域。首先,D立體影院裝置採用最新的D技術,可以將電影中的畫面以立體的方式呈現在觀眾眼前。觀眾戴上D眼鏡後,畫面不再是平面的,而是有深...

    墾利牆繪和3D創意繪畫讓和美村更具藝術氣息

    墾利文化壁畫作為社群村的重要特色,如何增添其美感和活力,成為人們關注的焦點。以花卉為主題的壁畫可以為背景牆注入一絲生命力。那麼,它有什麼吸引人的地方呢?首先,花卉壁畫可以給墾利文化牆帶來大自然的芬芳。這面美麗的背景牆彷彿是墾力的名片,讓人沉浸在清新的花海中。它猶如仙女,翩翩起舞,讓整個空間充滿生機與...

    高攀送出2個首輪籤,聯盟最兇猛的3D,不讓我留下塔克

    球隊每個賽季都會重建,有的被迫這樣做,有的主動多變。就哈登而言,他不願意留在火箭隊的末尾,最終選擇被交易到籃網隊,這迫使火箭隊重建。然而,現在火箭隊正走在通往光明未來的路上,他們擁有建立球隊的基石,並且走在正確的軌道上。雷霆隊也有類似的經歷,原本擁有魏韶和喬治的雙核陣容,但最終不得不面對喬治的離開,...

    3D列印夾具的應用

    D列印技術的出現給製造業帶來了巨大的變化,工裝夾具的生產也從傳統的加工製造方式轉變為D列印製造。D列印夾具不僅可以提高生產效率,降低成本,還可以滿足快速定製的需求,因此在現代製造業中得到了廣泛的應用。與傳統製造夾具相比,D列印夾具具有許多優勢。D列印工裝夾具不需要進行複雜的成型工藝,可以直接列印,大...