人工智慧如何將靜態影象轉化為動態逼真的**? OpenAI 的 SORA 通過創新地使用時空補丁提出了答案。
在快速增長的生成模型領域,OpenAI 的 SORA 以其顯著的里程碑脫穎而出,有望重塑我們對生成的理解和能力。 我們解讀了SORA背後的技術,以及它在影象、**和3D內容創作領域激發下一代模型的潛力。
上面的演示是由 OpenAI 生成的,並使用了以下提示:乙隻貓叫醒它熟睡的主人並要求吃早餐。 主人試圖無視貓,但貓嘗試了新的策略,最後主人從枕頭底下拿出一小份秘密零食,讓貓咪多等一會兒。 — 有了 Sora,我們進入了內容生成領域,在這個領域幾乎不可能區分真實性。 完整模型尚未完全向公眾發布,正在測試中。
在生成模型領域,我們已經看到了從GAN到自動回歸和擴散模型的各種方法,它們都有自己的優勢和侷限性。 現在,SORA 通過引入新的建模技術和靈活性來處理各種持續時間、縱橫比和解像度,從而帶來了正規化轉變。
SORA 將 Diffusion 和 Transformer 架構結合在一起,建立了乙個 Diffusion Transformer 模型,該模型提供:
Text-to**:正如我們所看到的。
影象:將生命注入靜態影象。
*To**:將**樣式轉換為其他東西。
延時**:前進和後退。
建立乙個無縫迴圈:似乎永無止境的瓷磚**。
生成的影象:靜止影象是單幀動畫(最大 2048 x 2048)。
以任何格式生成**:從 1920 x 1080 到 1080 x 1920,以及介於兩者之間的所有格式。
模擬虛擬世界:例如 Minecraft 和其他**遊戲。
建立** 最多 1 分鐘,包含多個剪輯。
想象一下,你在廚房裡。 傳統的生成模型,如鼠兔和 runwayml 就像嚴格遵循食譜的廚師一樣。 他們可以做出很棒的菜餚(但他們受到他們所擁有的食譜(演算法)的限制。 廚師可能擅長烘烤蛋糕(短片)或烹飪義大利面(特定型別的**),使用特定的成分(資料格式)和技術(模型架構)。
另一方面,Sora 是一種新型廚師,他了解口味的基本原理。 這樣的廚師不僅遵循食譜,還發明了新的食譜。 SORA的食材(資料)和技術(模型架構)的靈活性使SORA能夠生產出各種高品質**,就像廚師的多功能烹飪作品一樣。
在傳統的視覺轉換器中,我們使用一系列影象"補丁"訓練影象識別轉換器模型,而不是語言轉換器中的單詞。 通過補丁,我們可以擺脫卷積神經網路對影象處理的約束。
然而,視覺轉換器受到影象訓練資料的限制,這些資料的大小和縱橫比是固定的,這限制了影象的質量,並且需要對影象進行大量的預處理。
通過將 ** 處理為一系列片段,SORA 保持原始縱橫比和解像度,類似於 n**it 處理影象的方式。 這種保留對於捕獲視覺資料的真實性質至關重要,它允許模型從更準確的世界表示中學習,從而使SORA具有近乎神奇的準確性。
通過這種方法,SORA可以有效地處理各種視覺化資料,而無需進行預處理步驟,例如調整大小或填充。 這種靈活性確保了每條資料都有助於理解模型,就像廚師使用各種食材來增強菜餚的風味一樣。
使用時空補丁對 ** 資料進行詳細而靈活的處理,為精確的物理模擬和 3D 一致性等複雜功能奠定了基礎。 這些功能對於建立不僅看起來逼真,而且符合世界物理規則的事物至關重要,讓我們看到了人工智慧創造複雜、動態視覺內容的潛力。
SORA為生成模型設定了新標準。 這種方法可能會激發開源社群嘗試和提高視覺模式的能力,以推動新一代生成模型的開發,這些模型突破了創造力和現實主義的界限。
SORA的旅程才剛剛開始,正如OpenAI所說,“擴充套件視訊生成模型是構建物理世界通用模擬器的一條有前途的道路。Sora的方法將最新的人工智慧研究與現實世界的應用相結合,預示著生成模型的光明未來。 隨著這些技術的不斷發展,它們有望重新定義我們與數字內容的互動,使高保真、動態**的建立變得更加容易和通用。