清華大學王霞對本文有量子位元貢獻 | qbitai
從文字合成 3D 圖形的 AI 模型具有新的 SOTA!
近日,清華大學劉永進教授課題組提出了一種基於擴散模型的三維新方法。
無論是不同觀點的一致性,還是與提示詞的匹配程度,都比以前好多了。
文盛3D是3D AIGC的熱門研究內容,受到學術界和工業界的廣泛關注。
劉永進教授課題組提出的新模型稱為Text-Image Conditional Diffusion (TICD),該模型在T3bench資料集上已達到SOTA水平。
目前,相關**已經發布,**即將開源。
評估分數已達到SOTA
為了評估TICD方法的效果,研究團隊首先進行了定性實驗,並比較了以前的一些方法。
結果表明,TICD方法生成的三維圖形質量更好,圖形更清晰,與提示詞匹配性更好。
為了進一步評估這些模型的效能,該團隊在T3Bench資料集上使用這些方法定量測試了TICD。
結果表明,TICD在單物件、帶背景的單物件和多物件3個提示集上取得了最佳效果,證明其在生成質量和文字對齊方面都具有整體優勢。
此外,為了進一步評估這些模型的文字對齊方式,研究團隊還測試了渲染的3D物件與原始提示詞之間剪輯余弦的余弦相似度,結果仍然是TICD表現最好的。
那麼,TICD方法是如何達到這樣的效果的呢?
先驗的多檢視一致性被納入 NERF 監督中。
目前,大多數主流的文字生成 3D 方法都使用預訓練的 2D 擴散模型,通過分數蒸餾取樣 (SDS) 來優化神經輻射場 (nerfs),以生成新的 3D 模型。
然而,這種預訓練擴散模型提供的監督僅限於輸入文字本身,並不約束多個視角之間的一致性,這可能會導致生成幾何形狀不佳等問題。
為了在擴散模型的先驗中引入多視角一致性,近年來的一些研究利用多視角資料對二維擴散模型進行了微調,但視角之間仍缺乏細粒度的連續性。
為了解決這一挑戰,TICD方法將文字條件和影象條件的多檢視影象納入NERF優化的監督訊號中,分別保證了3D資訊和提示詞的對齊以及3D物體不同視角之間的強一致性,有效提高了生成的3D模型的質量。
在工作流程上,TICD首先對幾組正交參考相機透視進行取樣,使用nerf渲染相應的參考檢視,然後對這些參考檢視應用基於文字的條件擴散模型,以約束內容和文字的整體一致性。
在此基礎上,選擇幾組參考攝像機透視,並渲染每個附加新透視的檢視。 然後,將這兩種視角和透視之間的姿態關係作為新的條件,採用基於影象的條件擴散模型來約束不同視角之間的細節一致性。
結合兩個擴散模型的監督訊號,TICD可以更新NERF網路的引數,並通過迭代優化進行迭代,直到得到最終的NERF模型,渲染出高質量、幾何清晰、文字一致的3D內容。
此外,TICD方法可以有效消除現有方法面對特定文字輸入時可能出現的消失、錯誤幾何資訊生成過多、顏色混淆等問題。
*位址: