如果你關注演算法生成的頭像,你可能會擔心這些問題:建立我自己的頭像需要什麼?
我們給出的答案是:用手機拍乙個**就夠了!重建手機拍攝的高保真3D虛擬數字影象一直是一項具有挑戰性的任務,主要是因為難以準確控制表情,尤其是一些誇張的表情和一些微表情。 這是因為現有的演算法往往依賴於有限的線性表情係數來引數化表情,而這種線性表情很難對豐富的面部表情細節進行建模。
事實上,來自清華大學和新昌源科技的研究人員已經提出了一種新的方法,潛伏**atar,它利用深度網路和神經輻射場技術學習到的潛在特徵,有針對性地解決了上述兩個難點。 研究結果發表在圖形學頂級會議 SIGGRAPH 2023 上。 便捷的捕捉裝置,高保真化身,栩栩如生的表情控制,一切皆可潛伏**atar完成!
接下來,讓我們來看看它是如何做到的。
*家。 表達可控的神經輻射場。
潛在**atar的核心思想是摒棄現有的基於線性表示式庫的表示式建模方法,轉而利用深度網路的隱藏空間來實現表示式的建模。 為此,潛在**atar首先構造乙個表情隱空間,以及乙個將面部區域影象對映到面部隱空間的編碼器。 然後,從表示式潛在變數生成由三平面神經輻射場表示的神經輻射場,如下圖所示。 三平面和神經輻射場的引入,使得網路學習到的隱蔽空間具有三維感知能力,通過簡單的重構損失,隱蔽空間可以捕捉到目標任務的高頻面部紋理細節,從而很好地處理誇張的表情和微表情。 與之前的方案相比,由於表情潛在變數是端到端地從輸入單目中學習的,因此潛伏**atar擺脫了人臉模板的跟蹤和表情問題,從而實現了更豐富、更準確的表情建模。
交叉標識驅動。
由於上述構造的人頭數字頭像是由學習到的表情隱變數控制的,因此當使用另乙個駕駛員駕駛時,需要先將他的人臉影象對映到該數字頭像的相應表情隱變數上。
為此,Latent**ATAR引入了乙個由共享編碼器和兩個獨立解碼器組成的Y形網路架構。 共享編碼器接收乙個頭像和乙個新的駕駛員面部影象作為輸入,學習共享表情的潛在變數。 對映多層感知器在兩個潛在變數空間之間架起了一座橋梁。
通過這種方式,潛在**atar 實現了另乙個人來驅動構建的數位化身。 所以我們在文章開頭看到了結果。 它不僅可以實現高保真的影象渲染,還可以保證駕駛員的表情能夠準確傳遞,一些誇張的表情、微妙的表情和情緒也能準確傳達。
實驗結果。 作者還將 Latent**ATAR 與之前其他單眼頭部數字頭像重建演算法進行了比較,包括 NerFace、IM**ATAR、DeepVideoPortraits (DVP) 和旨在消除三平面表達改善的基線 Coeff+Tri-Plane。 從定性結果來看,潛伏**atar合成的化身具有最高的真實感,表情一致性和誇張表情的建模能力最好,也具有更強的魯棒性。 此外,定量結果也證明了Latent**ATAR在數值評估中能夠取得最佳效果。
最近的單目**重建方法都使用3DMM人臉模板作為頭像表情控制的驅動訊號,在跟蹤和擬合3DMM人臉模板時通常會引入誤差,導致表情不準確。 因此,在後期製作中對人頭的數位化身進行動畫製作時,難免會出現表情模糊或不一致的情況。 潛在**ATAR也從**中重建頭部數字頭像,但不需要3DMM,而是直接從訓練資料中學習隱式表示式潛在變數。 因此,合成的虛擬影象在各種誇張的表情下都能栩栩如生,大大改善了目前數字人驅動的僵硬、不真實、不生動的表情問題。
新昌源科技有限公司總部位於杭州,與北京清華大學產學研基地、深圳清華大學虛擬研究院虛擬數字人中心三地聯動,專注於數字人相關技術研究和人才培養。 未來將覆蓋更多場景和需求,攜手眾多行業夥伴,推動“AIGC+數字人”多場景落地,逐步普及消費級數字人,為各行各業提供強大而全面的技術支援。
引用。 yuelang xu, hongwen zhang, lizhen wang, xiaochen zhao, huang han, qi guojun, and yebin liu. latent**atar: learning latent expression code for expressive neural head **atar. in acm siggraph 2023 conference proceedings, 2023
專案主頁:柳葉斌com/h**atar