利用擴散模型對NeRF進行監督,清華文盛的新3D方法成為新的SOTA

Mondo 科學 更新 2024-01-31

清華大學王霞對本文有量子位元貢獻 | qbitai

從文字合成 3D 圖形的 AI 模型具有新的 SOTA!

近日,清華大學劉永進教授課題組提出了一種基於擴散模型的三維新方法。

無論是不同觀點的一致性,還是與提示詞的匹配程度,都比以前好多了。

文盛3D是3D AIGC的熱門研究內容,受到學術界和工業界的廣泛關注。

劉永進教授課題組提出的新模型稱為Text-Image Conditional Diffusion (TICD),該模型在T3bench資料集上已達到SOTA水平。

目前,相關**已經發布,**即將開源。

評估分數已達到SOTA

為了評估TICD方法的效果,研究團隊首先進行了定性實驗,並比較了以前的一些方法。

結果表明,TICD方法生成的三維圖形質量更好,圖形更清晰,與提示詞匹配性更好。

為了進一步評估這些模型的效能,該團隊在T3Bench資料集上使用這些方法定量測試了TICD。

結果表明,TICD在單物件、帶背景的單物件和多物件3個提示集上取得了最佳效果,證明其在生成質量和文字對齊方面都具有整體優勢。

此外,為了進一步評估這些模型的文字對齊方式,研究團隊還測試了渲染的3D物件與原始提示詞之間剪輯余弦的余弦相似度,結果仍然是TICD表現最好的。

那麼,TICD方法是如何達到這樣的效果的呢?

先驗的多檢視一致性被納入 NERF 監督中。

目前,大多數主流的文字生成 3D 方法都使用預訓練的 2D 擴散模型,通過分數蒸餾取樣 (SDS) 來優化神經輻射場 (nerfs),以生成新的 3D 模型。

然而,這種預訓練擴散模型提供的監督僅限於輸入文字本身,並不約束多個視角之間的一致性,這可能會導致生成幾何形狀不佳等問題。

為了在擴散模型的先驗中引入多視角一致性,近年來的一些研究利用多視角資料對二維擴散模型進行了微調,但視角之間仍缺乏細粒度的連續性。

為了解決這一挑戰,TICD方法將文字條件和影象條件的多檢視影象納入NERF優化的監督訊號中,分別保證了3D資訊和提示詞的對齊以及3D物體不同視角之間的強一致性,有效提高了生成的3D模型的質量。

在工作流程上,TICD首先對幾組正交參考相機透視進行取樣,使用nerf渲染相應的參考檢視,然後對這些參考檢視應用基於文字的條件擴散模型,以約束內容和文字的整體一致性。

在此基礎上,選擇幾組參考攝像機透視,並渲染每個附加新透視的檢視。 然後,將這兩種視角和透視之間的姿態關係作為新的條件,採用基於影象的條件擴散模型來約束不同視角之間的細節一致性。

結合兩個擴散模型的監督訊號,TICD可以更新NERF網路的引數,並通過迭代優化進行迭代,直到得到最終的NERF模型,渲染出高質量、幾何清晰、文字一致的3D內容。

此外,TICD方法可以有效消除現有方法面對特定文字輸入時可能出現的消失、錯誤幾何資訊生成過多、顏色混淆等問題。

*位址:

相關問題答案

    位元組自研大模型,但因使用ChatGPT被封禁,引發爭議該官員回應道

    由機器之心報告。編輯 Zenan,杜偉 沒想到,位元組的大模型專案是這樣的。上周末,外媒報道稱,位元組跳動在利用OpenAI技術開發自己的大型語言模型時,因違反OpenAI的服務條款而被封禁。據 The Verge 報道,位元組跳動內部的大型語言模型專案稱為 Project Seed。由於訓練乙個大...

    開發區市場監督管理局開展“安全用藥月”宣傳活動。

    振興遼寧新突破 近日,開發區市場監督管理局結合日常監管工作開展了 安全用藥月 主題宣傳活動,通過多種形式宣傳安全用藥知識,引導群眾樹立安全用藥理念,號召大家關注安全用藥,促進全民健康。活動期間,開發區市場監督管理局工作人員通過現場講解 懸掛橫幅 張貼宣傳板 張貼海報 散發宣傳資料 講解假冒偽劣藥品篩...

    用迴圈購買模式賣產品,模式顛覆你的想象

    近年來,消費驅動型經濟已成為我國經濟發展的重要引擎。為了促進消費增長,提高產品的復購率,很多地方都開始出台促進消費的政策。其中,浙江等地在年初推出促進消費的政策,吸引了眾多企業和商家的關注。隨著政策的出台,出現了一種新的營銷模式,稱為迴圈購物。這種模式不僅可以促進使用者消費,還可以大大提高產品的復購...

    你能用神經網路模型訓練乙隻電子小狗嗎?

    目前,使用神經網路模型訓練乙個類似於電子小狗的虛擬實體是一項相對複雜和具有挑戰性的任務。神經網路在影象識別 語音識別和自然語言處理等領域取得了令人矚目的成就,但要模擬和訓練乙隻具有複雜行為和感知能力的虛擬小狗,需要綜合運用多種技術和領域知識。以下是實現此目的的一些關鍵考慮因素 .感知和感知處理 幼犬...

    使用大模型生成使用者畫像,讓數字營銷更精準、更高效

    使用者畫像是數字營銷中的重要工具,可以幫助產品經理和運營人員了解使用者的需求 偏好和行為,從而提供更加個性化和高質量的服務。本文介紹了使用者畫像生成方法,包括特徵提取 模型訓練和使用者畫像生成三個步驟,重點介紹了人工智慧大模型在這些步驟中的作用。大模型是指具有超大規模引數和資料的習模型,可以在多個領...