機器之心柱。
《機器之心》編輯部
本文介紹了乙個名為 X-Dreamer 的框架,該框架由 CG-LoRa 和 AMA loss 兩個關鍵創新組成,以彌合文字到 2D 和文字到 3D 之間的領域差距,實現高質量的 3D 生成。近年來,在預訓練擴散模型的推動下,在自動文字到3D內容建立方面取得了重大進展[1,2,3]。 其中,DreamFusion [4] 引入了一種有效的方法,利用預先訓練的 2D 擴散模型 [5] 從文字中自動生成 3D 資產,無需專門的 3D 資產資料集。
DreamFusion 引入的關鍵創新之一是分餾取樣 (SDS) 演算法。 該演算法利用預先訓練的 2D 擴散模型來評估單個 3D 表示,例如 NERF [6],以確保從任何相機角度渲染的影象與給定文字高度一致。 受突破性SDS演算法的啟發,已經出現了一些工作[7,8,9,10,11],通過應用預先訓練的2D擴散模型來推進文字到3D的生成任務。
雖然通過利用預先訓練的文字到 2D 擴散模型,在文字到 3D 生成方面取得了重大進展,但 2D 影象和 3D 資產之間仍然存在顯著的領域差距。 這種區別在圖1中得到了清晰的說明。
首先,文字轉 2D 模型生成獨立於相機的生成結果,專注於從特定角度生成高質量影象,而忽略其他角度。 相比之下,3D 內容建立與相機引數(如位置、拍攝角度和視野)有著錯綜複雜的聯絡。 因此,文字轉 3D 模型必須在所有可能的相機引數上產生高質量的結果。
此外,文字轉 2D 生成模型必須同時生成前景和背景元素,同時保持影象的整體連貫性。 相反,文字到 3D 的生成模型只需要專注於建立前景物件。 這種區別允許文字轉 3D 模型分配更多資源和注意力,以準確表示和生成前景物件。 因此,在直接使用預訓練的 2D 擴散模型建立 3D 資產時,文字到 2D 和文字到 3D 生成之間的域差距構成了明顯的效能障礙。
圖 1 文字轉 2D 生成模型(左)和文字轉 3D 生成模型(右)在同一文字提示下的輸出,即"a statue of leonardo dicaprio's head.”。
為了解決這個問題,X-Dreamer被提出,這是一種高質量文字到3D內容創作的新方法,有效地彌合了文字到2D和文字到3D生成之間的領域差距。
X-Dreamer 的關鍵元件是兩個創新設計:相機引導的低秩自適應 (CG-LoRa) 和注意力掩碼對齊 (AMA) 損失。
首先,現有方法[7,8,9,10]通常使用2D預訓練擴散模型[5,12]進行文字到3D的生成,缺乏與相機引數的內在關係。 為了解決這一限制並確保 X-Dreamer 產生直接受相機引數影響的結果,引入了 CG-LoRa 來調整預訓練的 2D 擴散模型。 需要注意的是,CG-LoRa 的引數是在每次迭代期間根據相機資訊動態生成的,從而在文字到 3D 模型和相機引數之間建立了穩健的關係.
其次,預訓練的文字到2D擴散模型將注意力分配給前景和背景的生成,而3D資產的建立則更需要關注前景物件的準確生成。 為了解決這個問題,該文提出AMA損失,利用3D物體的二元掩碼來引導預訓練擴散模型的注意力圖,從而優先建立前景物體。 通過合併此模組,X-Dreamer 可以優先生成前景物件,從而顯著提高生成的 3D 內容的整體質量。
專案主頁: github homepage:
*位址:X-Dreamer在文字到3D生成領域的貢獻如下:
*提出了一種新穎的方法,X-Dreamer,用於高質量文字到3D的內容建立,有效地彌合了文字到2D和文字到3D生成之間的主要差距。
為了增強生成結果與相機視角之間的對齊性,提出了CG-LoRa,它利用相機資訊為2D擴散模型動態生成特定引數。
為了在文字轉 3D 模型中優先建立前景物件,引入了 AMA 損失,利用前景 3D 物件的二進位掩碼來引導 2D 擴散模型的注意力圖。
方法:
X-Dreamer由兩個主要階段組成:幾何習和外觀習。 對於幾何習,DMTet作為3D表示並使用3D橢球體進行初始化,初始化時的損失函式是均方誤差(MSE)損失。 隨後,使用分數蒸餾取樣 (SDS) 損失和建議的 AMA 損失對 DMTet 和 CG-LoRa 進行了優化,以確保 3D 表示與輸入文字提示之間的一致性。
對於外觀習,建模與雙向反射分布函式(BRDF)一起使用。 具體來說,具有可訓練引數的 MLP 用於材料表面。 與幾何習階段類似,SDS損失和AMA損失用於優化MLP和CG-LoRa的可訓練引數,以實現3D表示和文字提示之間的對齊。 圖 2 說明了 X-Dreamer 的詳細配置。
圖 2 X-Dreamer 的概述,包括幾何形狀 習 和外觀 習。
習幾何學習
外觀習appearance learning
camera-guided low-rank adaptation (cg-lora)
為了解決文字到2D和文字到3D生成任務之間的域差距導致的次優3D結果生成問題,X-Dreamer提出了相機引導的低秩自適應。
如圖 3 所示,相機引數和方向感知文字用於指導 CG-LoRa 中的引數生成,使 X-Dreamer 能夠有效地感知相機的位置和方向資訊。
圖 3 相機引導的 CG-LoRa 原理圖。
attention-mask alignment loss (ama loss)
*試驗了四個 NVIDIA RTX 3090 GPU 和 PyTorch 庫。 為了計算SDS損失,使用了使用Hugging Face Diffusers實現的穩定擴散模型。 對於 DMTET 和材質編碼器,分別將它們實現為兩層 MLP 和單層 MLP,隱藏層尺寸為 32。
文字到 3D 的生成從橢圓體開始
*顯示 X-Dreamer 使用橢球體作為初始幾何體生成的文字到 3D 的結果,如圖 4 所示。 結果證明,X-Dreamer能夠生成高質量和逼真的3D物件,這些物件與輸入的文字提示準確對應。
圖 4 文字到 3D 的生成從橢圓體開始。
從粗粒度網格開始,用於生成文字到 3D 的網格
雖然可以從 Internet 建立大量粗粒度網格,但直接從這些網格建立 3D 內容通常會導致效能不佳,因為缺少幾何細節。 然而,與 3D 橢球體相比,這些網格可以為 X-Dreamer 提供有關 3D 形狀的更好先驗資訊。
因此,除了使用橢圓體外,還可以使用粗粒度引導網格來初始化 dmtet。 如圖 5 所示,X-Dreamer 可以基於給定文字生成具有精確幾何細節的 3D 資產,即使提供的粗粒度網格缺乏細節也是如此。
圖 5 文字到 3D 的生成從粗粒度網格開始。
定性比較
為了評估 X-Dreamer 的有效性,將其與四種 SOTA 方法進行了比較:Dreamfusion [4]、Magic3D [8]、Fantasia3D [7] 和 ProlificDreamer [11],如圖 6 所示。
與基於SDS的方法相比[4,7,8],X-Dreamer在生成高質量和逼真的3D資產方面優於它們。 此外,與基於 VSD 的方法 [11] 相比,X-Dreamer 生成的 3D 內容具有可比甚至更好的視覺效果,同時需要的優化時間要短得多。 具體來說,X-Dreamer的幾何形狀和外觀的習過程只需要大約27分鐘,而ProlificDreamer需要8個多小時。
圖6與現有技術(SOTA)方法進行了比較。
消融實驗
模組消融。 為了深入了解 CG-LoRa 和 AMA 損失的能力,進行了消融研究,其中每個模組都被單獨招募以評估其影響。 如圖 7 所示,燒蝕結果顯示,當 CG-LoRa 被排除在 X-Dreamer 之外時,生成的 3D 物件的幾何形狀和外觀質量顯著下降。
此外,X-Dreamer 丟失的 AMA 也會對生成的 3D 資產的幾何形狀和外觀保真度產生不利影響。 這些燒蝕實驗為CG-LoRa和AMA損耗在增強最終3D物體的幾何形狀、外觀和整體質量方面的單獨貢獻提供了有價值的研究。
圖 7 X-Dreamer 的消融研究。
有和沒有 AMA 損失的注意力圖比較。
引入 AMA 損失的目的是將注意力從去噪過程引導到前景物件。 這是通過將 SD 的注意力圖與 3D 物件的渲染蒙版對齊來實現的。 為了評估AMA損失在實現這一目標方面的有效性,在幾何習和美容習階段視覺化了有和沒有AMA損失的SD的注意力圖。
如圖 8 所示,可以看出,新增 AMA 損失不僅改善了生成的 3D 資產的幾何形狀和外觀,而且還將 SD 的注意力特別集中在前景物件區域。 視覺化證實了AMA損失在引導SD注意力方面的有效性,從而提高了幾何和修飾習階段前景物體的質量和焦點。
圖 8 注意力圖、渲染蒙版和渲染影象的視覺化,有和沒有 AMA 損失。
這項研究引入了乙個名為 X-Dreamer 的開創性框架,旨在通過解決文字到 2D 和文字到 3D 生成之間的領域差距來增強文字到 3D 的生成。 為了實現這一點,首先提出了 CG-LoRa,該模組將 3D 相關資訊(包括方向感知文字和相機引數)整合到預訓練的穩定擴散 (SD) 模型中。 通過這樣做,本文能夠有效地捕獲與 3D 域相關的資訊。 此外,本文還設計了AMA損失,使SD生成的注意力圖與3D物件的渲染蒙版對齊。 AMA 損失的主要目標是將文字轉 3D 模型的焦點引導到前景物件的生成方向上。 通過大量的實驗,本文對所提方法的有效性進行了全面評估,證明了X-Dreamer能夠根據給定的文字提示生成高質量、逼真的3D內容。
引用。 1] jonathan ho, ajay jain, and pieter abbeel. denoising diffusion probabilistic models. advances in neural information processing systems, 33:6840–6851, 2020.
2] jascha sohl-dickstein, eric weiss, niru maheswaranathan, and surya ganguli. deep unsupervised learning using nonequilibrium thermodynamics. in international conference on machine learning, pages 2256–2265. pmlr, 2015.
3] yang song, jascha sohl-dickstein, diederik p kingma, abhishek kumar, stefano ermon, and ben poole. score-based generative modeling through stochastic differential equations. arxiv preprint arxiv:2011.13456, 2020.
4] ben poole, ajay jain, jonathan t barron, and ben mildenhall. dreamfusion: text-to-3d using 2d diffusion. arxiv preprint arxiv:2209.14988, 2022.
5] chitwan saharia, william chan, saurabh saxena, lala li, jay whang, emily l denton, kamyar ghasemipour, raphael gontijo lopes, burcu karagol ayan, tim salimans, et al. photorealistic text-to-image diffusion models with deep language understanding. advances in neural information processing systems, 35:36479–36494, 2022.
6] ben mildenhall, pratul p srinivasan, matthew tancik, jonathan t barron, r**i ramamoorthi, and ren ng. nerf: representing scenes as neural radiance fields for view synthesis. communications of the acm, 65 (1):99–106, 2021.
7] rui chen, yongwei chen, ningxin jiao, and kui jia. fantasia3d: disentangling geometry and appearance for high-quality text-to-3d content creation. arxiv preprint arxiv:2303.13873, 2023.
8] chen-hsuan lin, jun gao, luming tang, towaki takikawa, xiaohui zeng, xun huang, karsten kreis, sanja fidler, ming-yu liu, and tsung-yi lin. magic3d: high-resolution text-to-3d content creation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 300–309, 2023.
9] gal metzer, elad richardson, or patashnik, raja giryes, and daniel cohen-or. latent-nerf for shape-guided generation of 3d shapes and textures. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12663–12673, 2023.
10] haochen wang, xiaodan du, jiahao li, raymond a yeh, and greg shakhnarovich. score jacobian chaining: lifting pretrained 2d diffusion models for 3d generation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12619–12629, 2023.
11] zhengyi wang, cheng lu, yikai wang, fan bao, chongxuan li, hang su, and jun zhu. prolificdreamer: high-fidelity and diverse text-to-3d generation with variational score distillation. arxiv preprint arxiv:2305.16213, 2023.
12] robin rombach, andreas blattmann, dominik lorenz, patrick esser, and bjorn ommer. high-resolution image synthesis with latent diffusion models. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 10684–10695, 2022.