Sora究竟是如何工作的?

Mondo 職場 更新 2024-02-23

譯者:布加迪。

上週,OpenAI團隊推出了SORA,這是乙個大規模生成的模型,展示了模擬物理世界基本方面的新功能。 我關注文字生成領域已經有很長一段時間了,我認為這個模型代表了質量的飛躍。

我在 Reddit 和 Twitter 上看到了很多關於這個模型如何運作的猜測,包括一些非主流的說法(Sora 是否在乙個名為 Unreal 的遊戲引擎中執行? )。當這個突破性的人工智慧工具發布時,許多人都想表現得好像他們知道它是如何工作的,甚至可能欺騙自己,認為他們可以根據一些已發表的樣本瞥見微妙的線索。 我發現的最糟糕的例子是 Jim Fan 博士的帖子,聲稱“SORA 是乙個資料驅動的物理引擎”,該帖子在 Twitter 上被瀏覽了大約 400 萬次(SORA 根本不是資料驅動的物理引擎)。

幸運的是,OpenAI 發表了一篇研究文章,解釋了其模型的架構。 如果我們閱讀了這篇文章,實際上沒有必要猜測。 下面我將介紹OpenAI團隊提供的技術,以便我們了解Sora的實際工作原理。

自人工智慧領域出現以來,建立能夠建模、理解和模擬現實世界固有複雜性的人工智慧一直是一項非常艱鉅的挑戰。 與靜態影象不同,它本質上涉及呈現隨時間變化、3D 空間、物理互動和物件連續性等。 過去的生成模型很難處理不同的持續時間、解像度和攝像機角度。 更重要的是,這些系統缺乏對物理、因果關係和物體永續性的內在“理解”,而這些都是對現實進行高保真模擬所必需的。

OpenAI 發布的 ** 展示了乙個比我們在這些領域看到的任何東西都更好的模型。 坦率地說,這些**看起來很真實。 例如,乙個人的頭會擋住標誌,然後越過標誌,標誌上的文字將保持不變。 動物即使在“閒置”時也會逼真地擺動翅膀。 風中的花瓣會隨風搖曳。 面對這種挑戰,大多數**模特都無能為力,結果往往是一些閃爍、搖晃的影象,讓觀眾難以理解,但Sora沒有這個問題。 它是怎麼做到的?

我從研究該模型和現有帖子中得到的第乙個主要收穫是,這項研究工作建立在之前對語言模型(如 OpenAI 的 GPT)的研究基礎上。

表徵

研究人員引入的關鍵創新之一是SORA在訓練過程中的表現方式。 每個幀被劃分為許多小補丁,類似於 GPT-4 等大型語言模型中單詞被分解為標記的方式。 這種基於補丁的方法允許 SORA 使用不同長度、解像度、方向和縱橫比的 ** 進行訓練。 無論源的原始形狀如何,從框架中提取的碎片都以完全相同的方式處理。

圖1OpenAI的研究文章說:“粗略地說,我們先將**壓縮到乙個較低維的潛在空間,然後將**表示分解成時空斑塊,從而將**變成斑塊。 ”

模型架構

SORA 使用與其 GPT 模型密切相關的 Transformer 架構來處理這些區塊代幣的長序列。 轉換器包含時空自利層,這些層可用於對文字、音訊和 ** 等序列中的遠端依賴項進行建模。

在訓練過程中,SORA的transformer模型將擴散過程中早期的塊令牌序列作為輸入,即原始的“去噪”令牌。 通過對數百萬個不同幀的訓練,Sora慢慢學會了自然幀的模式和語義。

圖2OpenAI 研究文章中的去噪過程圖。

文字調整

SORA也是有條件的,這意味著它可以根據文字提示以受控方式生成。 文字提示將嵌入並作為附加上下文提供給模型,以及與當前幀對應的磁貼。

為了更好地將文字描述與實際內容聯絡起來,研究人員為每次訓練使用了高度描述性的標題,這些標題是從單獨的標題模型生成的。 這項技術可以幫助 Sora 更緊密地遵循文字提示。

推理過程

在推理過程中,SORA從純雜訊補丁開始,並在50多個擴散步驟中反覆降噪,直到實現連貫和平滑的**。 通過提供不同的文字提示,Sora 能夠生成與字幕適當匹配的不同**。

基於貼片的表徵允許SORA在測試時處理任何解像度、持續時間和方向,只需在開始擴散過程之前將貼片排列成所需的形狀即可。

通過將訓練資料擴充套件到數百萬個片段的大小並使用大量計算資源,OpenAI 團隊發現了一些非常有趣的突然行為:

Sora 不僅僅是文字生成,還可以從輸入影象或其他 **生成。

Sora似乎對場景有很強的3D“理解力”,人物和物體以連續的方式逼真地移動。 這純粹是從資料比例中得出的,不需要任何明確的 3D 建模或圖形**。

該模型顯示物件永續性,通常跟蹤實體和物件,即使它們暫時不在框架或被遮擋時也是如此。

Sora 展示了模擬一些基本現實世界互動的能力,例如,數字畫家在畫布上的筆觸隨著時間的推移而準確流傳下來。

它還可以令人信服地生成複雜的虛擬世界和遊戲,例如 Minecraft。 Sora 可用於在渲染場景時控制此生成環境中場景的移動。

隨著額外的計算能力和資料的增加,質量、一致性和提示依從性大大提高,這表明它進一步受益於規模。

但是,SORA仍然顯示出明顯的缺陷和侷限性:

通常很難準確模擬更複雜的現實世界的物理相互作用、動力學和因果關係。 簡單的物理和物件屬性仍然具有挑戰性。 例如,乙個玻璃杯被打翻並濺出液體,表明玻璃杯已經融化到桌子上,液體從玻璃杯的側面流下來,沒有任何破碎效果。

模型往往會自發地生成意想不到的物件或實體,尤其是在擁擠或混亂的場景中。

很容易混淆左右,或者當發生許多動作時,並且一段時間內事件或活動的精確順序很容易被打亂。

仍然很難逼真地模擬多個角色之間的自然互動和環境。 例如,它會產生乙個人在跑步機上走錯方向。

儘管存在這些持續存在的缺點,但隨著研究人員繼續擴大生成模型的規模,SORA預示著未來的潛力。 有了足夠的資料和計算能力,Transformer 可能會開始更深入地了解現實世界的物理、因果關係和物體永續性。 結合語言理解能力,這有望為通過基於**的真實世界模擬來訓練人工智慧系統開闢新的思路。

Sora正在朝著這個目標邁出第一步。 雖然需要做更多的工作來克服其許多弱點,但它所展示的新興特徵突出了這一研究方向的前景。 在大量不同資料集上訓練的巨型轉換器最終可能會生成能夠智慧型互動和理解我們物理環境固有的複雜性、豐富性和深度的人工智慧系統。

因此,與毫無根據的說法相反,SORA 不是通過遊戲引擎或“資料驅動的物理引擎”執行,而是通過執行在“塊”上的轉換器架構,就像 GPT-4 在文字令牌上執行一樣。 它擅長創造**,表明理解的深度、物件永續性和自然動態。

該模型的關鍵創新是將幀處理為一系列塊,類似於語言模型中的單詞標記,使其能夠有效地管理不同的方面。 這種方法與文字條件生成相結合,使 Sora 能夠根據文字提示生成上下文相關、視覺連貫的**。

儘管具有開創性的功能,但SORA也有侷限性,例如在模擬複雜互動和動態場景時保持連貫性。 這些侷限性表明需要進一步研究,但不影響它在推進發電技術方面取得的重大成就。

我希望 Sora 能盡快發布給人們試用,因為我已經想到了很多這項技術的新應用,所以讓我們拭目以待。

相關問題答案

    鐵路工程的存在是什麼?

    鐵路工程的存在是什麼?這個問題很複雜。每個人都有不同的立場,不同的追求,不同的期望,不同的見解,不同的經歷,不同的視野,不同的心態。總之,每個人都有自己的情況,實在不能一概而論。這就像一匹小馬過河,同一條河,松鼠說可以淹死人,老牛說腳是橫的,小馬聽誰的?一切的感覺都是最真實的,只有腳知道鞋子合腳不合...

    社會工作者到底是做什麼的?

    社會工作,簡稱社會工作,是一種幫助性職業,其目標是幫助個人 家庭和社群解決問題並提高他們的生活質量。那麼,社會工作者到底是做什麼的呢?接下來,職業網教將深入探討社工的工作內容及其在社會中的作用。首先,社會工作者的核心職責是幫助個人和家庭解決生活中的問題。這些問題可能涉及各個方面,例如家庭關係 心理健...

    銀行工作到底是做什麼的?

    最近,越來越多的大學畢業生選擇加入銀行,但他們真的了解銀行是做什麼的嗎?在銀行工作了乙個月後,作為一名剛入職的初級文員,我對銀行的工作有了更深入的了解。乍一看,銀行是處理資金的地方。櫃檯前整齊排列的現金和大廳牆上密密麻麻的數字告訴我們,這是乙個賺錢的地方。我曾經以為銀行職員只是坐在櫃檯後面,為客戶存...

    劉嬋如何看待孔明?是作為首相,還是作為父親?

    第一位領主也對詔書說 你與首相同在,你要像父親一樣做事。陳壽 三國志 諸葛亮傳 三國演義 趙子龍獨自騎救世主 近現代,金協忠,國畫。故事出自 三國演義 第四十一章。劉禪小時候曾兩次遇險,一次是在長板坡之戰中與劉備失散,一次是在赤壁之戰後差點被孫夫人拐回江東,兩次都被趙雲救出。知識量非常大,新增和修復...

    Sora如何變現

    由於這是乙個關於如何將 Sora 變現的話題,並且涉及具體的商業策略和運營方法,因此我將根據一般型別的文章的要求來撰寫本文的正文。在當今的商業世界中,許多公司都在尋找有效的貨幣化方法,以最大限度地提高商業價值。SORA也不例外。作為一家知名的網際網絡公司,SORA通過多種方式實現了商業價值的變現。首...