利用擴散模型對NeRF進行監督，清華文盛的新3D方法成為新的SOTA

Mondo 科學更新 2024-01-31

清華大學王霞對本文有量子位元貢獻 | qbitai

從文字合成 3D 圖形的 AI 模型具有新的 SOTA！

近日，清華大學劉永進教授課題組提出了一種基於擴散模型的三維新方法。

無論是不同觀點的一致性，還是與提示詞的匹配程度，都比以前好多了。

文盛3D是3D AIGC的熱門研究內容，受到學術界和工業界的廣泛關注。

劉永進教授課題組提出的新模型稱為Text-Image Conditional Diffusion （TICD），該模型在T3bench資料集上已達到SOTA水平。

目前，相關**已經發布，**即將開源。

評估分數已達到SOTA

為了評估TICD方法的效果，研究團隊首先進行了定性實驗，並比較了以前的一些方法。

結果表明，TICD方法生成的三維圖形質量更好，圖形更清晰，與提示詞匹配性更好。

為了進一步評估這些模型的效能，該團隊在T3Bench資料集上使用這些方法定量測試了TICD。

結果表明，TICD在單物件、帶背景的單物件和多物件3個提示集上取得了最佳效果，證明其在生成質量和文字對齊方面都具有整體優勢。

此外，為了進一步評估這些模型的文字對齊方式，研究團隊還測試了渲染的3D物件與原始提示詞之間剪輯余弦的余弦相似度，結果仍然是TICD表現最好的。

那麼，TICD方法是如何達到這樣的效果的呢？

先驗的多檢視一致性被納入 NERF 監督中。

目前，大多數主流的文字生成 3D 方法都使用預訓練的 2D 擴散模型，通過分數蒸餾取樣（SDS）來優化神經輻射場（nerfs），以生成新的 3D 模型。

然而，這種預訓練擴散模型提供的監督僅限於輸入文字本身，並不約束多個視角之間的一致性，這可能會導致生成幾何形狀不佳等問題。

為了在擴散模型的先驗中引入多視角一致性，近年來的一些研究利用多視角資料對二維擴散模型進行了微調，但視角之間仍缺乏細粒度的連續性。

為了解決這一挑戰，TICD方法將文字條件和影象條件的多檢視影象納入NERF優化的監督訊號中，分別保證了3D資訊和提示詞的對齊以及3D物體不同視角之間的強一致性，有效提高了生成的3D模型的質量。

在工作流程上，TICD首先對幾組正交參考相機透視進行取樣，使用nerf渲染相應的參考檢視，然後對這些參考檢視應用基於文字的條件擴散模型，以約束內容和文字的整體一致性。

在此基礎上，選擇幾組參考攝像機透視，並渲染每個附加新透視的檢視。然後，將這兩種視角和透視之間的姿態關係作為新的條件，採用基於影象的條件擴散模型來約束不同視角之間的細節一致性。

結合兩個擴散模型的監督訊號，TICD可以更新NERF網路的引數，並通過迭代優化進行迭代，直到得到最終的NERF模型，渲染出高質量、幾何清晰、文字一致的3D內容。

此外，TICD方法可以有效消除現有方法面對特定文字輸入時可能出現的消失、錯誤幾何資訊生成過多、顏色混淆等問題。

*位址：