X Dreamer 在 2D 和 3D 生成領域之間架起維度壁的橋梁，將高質量的文字轉換為 3D 生成

機器之心柱。

《機器之心》編輯部

本文介紹了乙個名為 X-Dreamer 的框架，該框架由 CG-LoRa 和 AMA loss 兩個關鍵創新組成，以彌合文字到 2D 和文字到 3D 之間的領域差距，實現高質量的 3D 生成。

近年來，在預訓練擴散模型的推動下，在自動文字到3D內容建立方面取得了重大進展[1,2,3]。其中，DreamFusion [4] 引入了一種有效的方法，利用預先訓練的 2D 擴散模型 [5] 從文字中自動生成 3D 資產，無需專門的 3D 資產資料集。

DreamFusion 引入的關鍵創新之一是分餾取樣（SDS）演算法。該演算法利用預先訓練的 2D 擴散模型來評估單個 3D 表示，例如 NERF [6]，以確保從任何相機角度渲染的影象與給定文字高度一致。受突破性SDS演算法的啟發，已經出現了一些工作[7,8,9,10,11]，通過應用預先訓練的2D擴散模型來推進文字到3D的生成任務。

雖然通過利用預先訓練的文字到 2D 擴散模型，在文字到 3D 生成方面取得了重大進展，但 2D 影象和 3D 資產之間仍然存在顯著的領域差距。這種區別在圖1中得到了清晰的說明。

首先，文字轉 2D 模型生成獨立於相機的生成結果，專注於從特定角度生成高質量影象，而忽略其他角度。相比之下，3D 內容建立與相機引數（如位置、拍攝角度和視野）有著錯綜複雜的聯絡。因此，文字轉 3D 模型必須在所有可能的相機引數上產生高質量的結果。

此外，文字轉 2D 生成模型必須同時生成前景和背景元素，同時保持影象的整體連貫性。相反，文字到 3D 的生成模型只需要專注於建立前景物件。這種區別允許文字轉 3D 模型分配更多資源和注意力，以準確表示和生成前景物件。因此，在直接使用預訓練的 2D 擴散模型建立 3D 資產時，文字到 2D 和文字到 3D 生成之間的域差距構成了明顯的效能障礙。

圖 1 文字轉 2D 生成模型（左）和文字轉 3D 生成模型（右）在同一文字提示下的輸出，即"a statue of leonardo dicaprio's head.”。

為了解決這個問題，X-Dreamer被提出，這是一種高質量文字到3D內容創作的新方法，有效地彌合了文字到2D和文字到3D生成之間的領域差距。

X-Dreamer 的關鍵元件是兩個創新設計：相機引導的低秩自適應（CG-LoRa）和注意力掩碼對齊（AMA）損失。

首先，現有方法[7,8,9,10]通常使用2D預訓練擴散模型[5,12]進行文字到3D的生成，缺乏與相機引數的內在關係。為了解決這一限制並確保 X-Dreamer 產生直接受相機引數影響的結果，引入了 CG-LoRa 來調整預訓練的 2D 擴散模型。需要注意的是，CG-LoRa 的引數是在每次迭代期間根據相機資訊動態生成的，從而在文字到 3D 模型和相機引數之間建立了穩健的關係.

其次，預訓練的文字到2D擴散模型將注意力分配給前景和背景的生成，而3D資產的建立則更需要關注前景物件的準確生成。為了解決這個問題，該文提出AMA損失，利用3D物體的二元掩碼來引導預訓練擴散模型的注意力圖，從而優先建立前景物體。通過合併此模組，X-Dreamer 可以優先生成前景物件，從而顯著提高生成的 3D 內容的整體質量。

專案主頁： github homepage：

*位址：X-Dreamer在文字到3D生成領域的貢獻如下：

*提出了一種新穎的方法，X-Dreamer，用於高質量文字到3D的內容建立，有效地彌合了文字到2D和文字到3D生成之間的主要差距。

為了增強生成結果與相機視角之間的對齊性，提出了CG-LoRa，它利用相機資訊為2D擴散模型動態生成特定引數。

為了在文字轉 3D 模型中優先建立前景物件，引入了 AMA 損失，利用前景 3D 物件的二進位掩碼來引導 2D 擴散模型的注意力圖。

方法：

X-Dreamer由兩個主要階段組成：幾何習和外觀習。對於幾何習，DMTet作為3D表示並使用3D橢球體進行初始化，初始化時的損失函式是均方誤差（MSE）損失。隨後，使用分數蒸餾取樣（SDS）損失和建議的 AMA 損失對 DMTet 和 CG-LoRa 進行了優化，以確保 3D 表示與輸入文字提示之間的一致性。

對於外觀習，建模與雙向反射分布函式（BRDF）一起使用。具體來說，具有可訓練引數的 MLP 用於材料表面。與幾何習階段類似，SDS損失和AMA損失用於優化MLP和CG-LoRa的可訓練引數，以實現3D表示和文字提示之間的對齊。圖 2 說明了 X-Dreamer 的詳細配置。

圖 2 X-Dreamer 的概述，包括幾何形狀習和外觀習。

習幾何學習

外觀習appearance learning

camera-guided low-rank adaptation (cg-lora)

為了解決文字到2D和文字到3D生成任務之間的域差距導致的次優3D結果生成問題，X-Dreamer提出了相機引導的低秩自適應。

如圖 3 所示，相機引數和方向感知文字用於指導 CG-LoRa 中的引數生成，使 X-Dreamer 能夠有效地感知相機的位置和方向資訊。

圖 3 相機引導的 CG-LoRa 原理圖。

attention-mask alignment loss (ama loss)

*試驗了四個 NVIDIA RTX 3090 GPU 和 PyTorch 庫。為了計算SDS損失，使用了使用Hugging Face Diffusers實現的穩定擴散模型。對於 DMTET 和材質編碼器，分別將它們實現為兩層 MLP 和單層 MLP，隱藏層尺寸為 32。

文字到 3D 的生成從橢圓體開始

*顯示 X-Dreamer 使用橢球體作為初始幾何體生成的文字到 3D 的結果，如圖 4 所示。結果證明，X-Dreamer能夠生成高質量和逼真的3D物件，這些物件與輸入的文字提示準確對應。

圖 4 文字到 3D 的生成從橢圓體開始。

從粗粒度網格開始，用於生成文字到 3D 的網格

雖然可以從 Internet 建立大量粗粒度網格，但直接從這些網格建立 3D 內容通常會導致效能不佳，因為缺少幾何細節。然而，與 3D 橢球體相比，這些網格可以為 X-Dreamer 提供有關 3D 形狀的更好先驗資訊。

因此，除了使用橢圓體外，還可以使用粗粒度引導網格來初始化 dmtet。如圖 5 所示，X-Dreamer 可以基於給定文字生成具有精確幾何細節的 3D 資產，即使提供的粗粒度網格缺乏細節也是如此。

圖 5 文字到 3D 的生成從粗粒度網格開始。

定性比較

為了評估 X-Dreamer 的有效性，將其與四種 SOTA 方法進行了比較：Dreamfusion [4]、Magic3D [8]、Fantasia3D [7] 和 ProlificDreamer [11]，如圖 6 所示。

與基於SDS的方法相比[4,7,8]，X-Dreamer在生成高質量和逼真的3D資產方面優於它們。此外，與基於 VSD 的方法 [11] 相比，X-Dreamer 生成的 3D 內容具有可比甚至更好的視覺效果，同時需要的優化時間要短得多。具體來說，X-Dreamer的幾何形狀和外觀的習過程只需要大約27分鐘，而ProlificDreamer需要8個多小時。

圖6與現有技術（SOTA）方法進行了比較。

消融實驗

模組消融。為了深入了解 CG-LoRa 和 AMA 損失的能力，進行了消融研究，其中每個模組都被單獨招募以評估其影響。如圖 7 所示，燒蝕結果顯示，當 CG-LoRa 被排除在 X-Dreamer 之外時，生成的 3D 物件的幾何形狀和外觀質量顯著下降。

此外，X-Dreamer 丟失的 AMA 也會對生成的 3D 資產的幾何形狀和外觀保真度產生不利影響。這些燒蝕實驗為CG-LoRa和AMA損耗在增強最終3D物體的幾何形狀、外觀和整體質量方面的單獨貢獻提供了有價值的研究。

圖 7 X-Dreamer 的消融研究。

有和沒有 AMA 損失的注意力圖比較。

引入 AMA 損失的目的是將注意力從去噪過程引導到前景物件。這是通過將 SD 的注意力圖與 3D 物件的渲染蒙版對齊來實現的。為了評估AMA損失在實現這一目標方面的有效性，在幾何習和美容習階段視覺化了有和沒有AMA損失的SD的注意力圖。

如圖 8 所示，可以看出，新增 AMA 損失不僅改善了生成的 3D 資產的幾何形狀和外觀，而且還將 SD 的注意力特別集中在前景物件區域。視覺化證實了AMA損失在引導SD注意力方面的有效性，從而提高了幾何和修飾習階段前景物體的質量和焦點。

圖 8 注意力圖、渲染蒙版和渲染影象的視覺化，有和沒有 AMA 損失。

這項研究引入了乙個名為 X-Dreamer 的開創性框架，旨在通過解決文字到 2D 和文字到 3D 生成之間的領域差距來增強文字到 3D 的生成。為了實現這一點，首先提出了 CG-LoRa，該模組將 3D 相關資訊（包括方向感知文字和相機引數）整合到預訓練的穩定擴散（SD）模型中。通過這樣做，本文能夠有效地捕獲與 3D 域相關的資訊。此外，本文還設計了AMA損失，使SD生成的注意力圖與3D物件的渲染蒙版對齊。 AMA 損失的主要目標是將文字轉 3D 模型的焦點引導到前景物件的生成方向上。通過大量的實驗，本文對所提方法的有效性進行了全面評估，證明了X-Dreamer能夠根據給定的文字提示生成高質量、逼真的3D內容。

引用。 1] jonathan ho, ajay jain, and pieter abbeel. denoising diffusion probabilistic models. advances in neural information processing systems, 33:6840–6851, 2020.

2] jascha sohl-dickstein, eric weiss, niru maheswaranathan, and surya ganguli. deep unsupervised learning using nonequilibrium thermodynamics. in international conference on machine learning, pages 2256–2265. pmlr, 2015.

3] yang song, jascha sohl-dickstein, diederik p kingma, abhishek kumar, stefano ermon, and ben poole. score-based generative modeling through stochastic differential equations. arxiv preprint arxiv:2011.13456, 2020.

4] ben poole, ajay jain, jonathan t barron, and ben mildenhall. dreamfusion: text-to-3d using 2d diffusion. arxiv preprint arxiv:2209.14988, 2022.

5] chitwan saharia, william chan, saurabh saxena, lala li, jay whang, emily l denton, kamyar ghasemipour, raphael gontijo lopes, burcu karagol ayan, tim salimans, et al. photorealistic text-to-image diffusion models with deep language understanding. advances in neural information processing systems, 35:36479–36494, 2022.

6] ben mildenhall, pratul p srinivasan, matthew tancik, jonathan t barron, r**i ramamoorthi, and ren ng. nerf: representing scenes as neural radiance fields for view synthesis. communications of the acm, 65 (1):99–106, 2021.

7] rui chen, yongwei chen, ningxin jiao, and kui jia. fantasia3d: disentangling geometry and appearance for high-quality text-to-3d content creation. arxiv preprint arxiv:2303.13873, 2023.

8] chen-hsuan lin, jun gao, luming tang, towaki takikawa, xiaohui zeng, xun huang, karsten kreis, sanja fidler, ming-yu liu, and tsung-yi lin. magic3d: high-resolution text-to-3d content creation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 300–309, 2023.

9] gal metzer, elad richardson, or patashnik, raja giryes, and daniel cohen-or. latent-nerf for shape-guided generation of 3d shapes and textures. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12663–12673, 2023.

10] haochen wang, xiaodan du, jiahao li, raymond a yeh, and greg shakhnarovich. score jacobian chaining: lifting pretrained 2d diffusion models for 3d generation. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 12619–12629, 2023.

11] zhengyi wang, cheng lu, yikai wang, fan bao, chongxuan li, hang su, and jun zhu. prolificdreamer: high-fidelity and diverse text-to-3d generation with variational score distillation. arxiv preprint arxiv:2305.16213, 2023.

12] robin rombach, andreas blattmann, dominik lorenz, patrick esser, and bjorn ommer. high-resolution image synthesis with latent diffusion models. in proceedings of the ieee/cvf conference on computer vision and pattern recognition, pages 10684–10695, 2022.

X Dreamer 在 2D 和 3D 生成領域之間架起維度壁的橋梁，將高質量的文字轉換為 3D 生成

相關問題答案

常用的3D建模軟體，常用的3D建模軟體有哪些？

3D立體影院裝置

墾利牆繪和3D創意繪畫讓和美村更具藝術氣息

高攀送出2個首輪籤，聯盟最兇猛的3D，不讓我留下塔克

3D列印夾具的應用