譯者:布加迪。
上週,OpenAI團隊推出了SORA,這是乙個大規模生成的模型,展示了模擬物理世界基本方面的新功能。 我關注文字生成領域已經有很長一段時間了,我認為這個模型代表了質量的飛躍。
我在 Reddit 和 Twitter 上看到了很多關於這個模型如何運作的猜測,包括一些非主流的說法(Sora 是否在乙個名為 Unreal 的遊戲引擎中執行? )。當這個突破性的人工智慧工具發布時,許多人都想表現得好像他們知道它是如何工作的,甚至可能欺騙自己,認為他們可以根據一些已發表的樣本瞥見微妙的線索。 我發現的最糟糕的例子是 Jim Fan 博士的帖子,聲稱“SORA 是乙個資料驅動的物理引擎”,該帖子在 Twitter 上被瀏覽了大約 400 萬次(SORA 根本不是資料驅動的物理引擎)。
幸運的是,OpenAI 發表了一篇研究文章,解釋了其模型的架構。 如果我們閱讀了這篇文章,實際上沒有必要猜測。 下面我將介紹OpenAI團隊提供的技術,以便我們了解Sora的實際工作原理。
自人工智慧領域出現以來,建立能夠建模、理解和模擬現實世界固有複雜性的人工智慧一直是一項非常艱鉅的挑戰。 與靜態影象不同,它本質上涉及呈現隨時間變化、3D 空間、物理互動和物件連續性等。 過去的生成模型很難處理不同的持續時間、解像度和攝像機角度。 更重要的是,這些系統缺乏對物理、因果關係和物體永續性的內在“理解”,而這些都是對現實進行高保真模擬所必需的。
OpenAI 發布的 ** 展示了乙個比我們在這些領域看到的任何東西都更好的模型。 坦率地說,這些**看起來很真實。 例如,乙個人的頭會擋住標誌,然後越過標誌,標誌上的文字將保持不變。 動物即使在“閒置”時也會逼真地擺動翅膀。 風中的花瓣會隨風搖曳。 面對這種挑戰,大多數**模特都無能為力,結果往往是一些閃爍、搖晃的影象,讓觀眾難以理解,但Sora沒有這個問題。 它是怎麼做到的?
我從研究該模型和現有帖子中得到的第乙個主要收穫是,這項研究工作建立在之前對語言模型(如 OpenAI 的 GPT)的研究基礎上。
表徵
研究人員引入的關鍵創新之一是SORA在訓練過程中的表現方式。 每個幀被劃分為許多小補丁,類似於 GPT-4 等大型語言模型中單詞被分解為標記的方式。 這種基於補丁的方法允許 SORA 使用不同長度、解像度、方向和縱橫比的 ** 進行訓練。 無論源的原始形狀如何,從框架中提取的碎片都以完全相同的方式處理。
圖1OpenAI的研究文章說:“粗略地說,我們先將**壓縮到乙個較低維的潛在空間,然後將**表示分解成時空斑塊,從而將**變成斑塊。 ”
模型架構
SORA 使用與其 GPT 模型密切相關的 Transformer 架構來處理這些區塊代幣的長序列。 轉換器包含時空自利層,這些層可用於對文字、音訊和 ** 等序列中的遠端依賴項進行建模。
在訓練過程中,SORA的transformer模型將擴散過程中早期的塊令牌序列作為輸入,即原始的“去噪”令牌。 通過對數百萬個不同幀的訓練,Sora慢慢學會了自然幀的模式和語義。
圖2OpenAI 研究文章中的去噪過程圖。
文字調整
SORA也是有條件的,這意味著它可以根據文字提示以受控方式生成。 文字提示將嵌入並作為附加上下文提供給模型,以及與當前幀對應的磁貼。
為了更好地將文字描述與實際內容聯絡起來,研究人員為每次訓練使用了高度描述性的標題,這些標題是從單獨的標題模型生成的。 這項技術可以幫助 Sora 更緊密地遵循文字提示。
推理過程
在推理過程中,SORA從純雜訊補丁開始,並在50多個擴散步驟中反覆降噪,直到實現連貫和平滑的**。 通過提供不同的文字提示,Sora 能夠生成與字幕適當匹配的不同**。
基於貼片的表徵允許SORA在測試時處理任何解像度、持續時間和方向,只需在開始擴散過程之前將貼片排列成所需的形狀即可。
通過將訓練資料擴充套件到數百萬個片段的大小並使用大量計算資源,OpenAI 團隊發現了一些非常有趣的突然行為:
Sora 不僅僅是文字生成,還可以從輸入影象或其他 **生成。
Sora似乎對場景有很強的3D“理解力”,人物和物體以連續的方式逼真地移動。 這純粹是從資料比例中得出的,不需要任何明確的 3D 建模或圖形**。
該模型顯示物件永續性,通常跟蹤實體和物件,即使它們暫時不在框架或被遮擋時也是如此。
Sora 展示了模擬一些基本現實世界互動的能力,例如,數字畫家在畫布上的筆觸隨著時間的推移而準確流傳下來。
它還可以令人信服地生成複雜的虛擬世界和遊戲,例如 Minecraft。 Sora 可用於在渲染場景時控制此生成環境中場景的移動。
隨著額外的計算能力和資料的增加,質量、一致性和提示依從性大大提高,這表明它進一步受益於規模。
但是,SORA仍然顯示出明顯的缺陷和侷限性:
通常很難準確模擬更複雜的現實世界的物理相互作用、動力學和因果關係。 簡單的物理和物件屬性仍然具有挑戰性。 例如,乙個玻璃杯被打翻並濺出液體,表明玻璃杯已經融化到桌子上,液體從玻璃杯的側面流下來,沒有任何破碎效果。
模型往往會自發地生成意想不到的物件或實體,尤其是在擁擠或混亂的場景中。
很容易混淆左右,或者當發生許多動作時,並且一段時間內事件或活動的精確順序很容易被打亂。
仍然很難逼真地模擬多個角色之間的自然互動和環境。 例如,它會產生乙個人在跑步機上走錯方向。
儘管存在這些持續存在的缺點,但隨著研究人員繼續擴大生成模型的規模,SORA預示著未來的潛力。 有了足夠的資料和計算能力,Transformer 可能會開始更深入地了解現實世界的物理、因果關係和物體永續性。 結合語言理解能力,這有望為通過基於**的真實世界模擬來訓練人工智慧系統開闢新的思路。
Sora正在朝著這個目標邁出第一步。 雖然需要做更多的工作來克服其許多弱點,但它所展示的新興特徵突出了這一研究方向的前景。 在大量不同資料集上訓練的巨型轉換器最終可能會生成能夠智慧型互動和理解我們物理環境固有的複雜性、豐富性和深度的人工智慧系統。
因此,與毫無根據的說法相反,SORA 不是通過遊戲引擎或“資料驅動的物理引擎”執行,而是通過執行在“塊”上的轉換器架構,就像 GPT-4 在文字令牌上執行一樣。 它擅長創造**,表明理解的深度、物件永續性和自然動態。
該模型的關鍵創新是將幀處理為一系列塊,類似於語言模型中的單詞標記,使其能夠有效地管理不同的方面。 這種方法與文字條件生成相結合,使 Sora 能夠根據文字提示生成上下文相關、視覺連貫的**。
儘管具有開創性的功能,但SORA也有侷限性,例如在模擬複雜互動和動態場景時保持連貫性。 這些侷限性表明需要進一步研究,但不影響它在推進發電技術方面取得的重大成就。
我希望 Sora 能盡快發布給人們試用,因為我已經想到了很多這項技術的新應用,所以讓我們拭目以待。