2024年2月16日,OpenAI發布了**代AI大模型SORA。 訊息一出,業界再次震驚。
OpenAI官網說明:SORA是一種AI模型,根據文字指令生成真實和虛擬場景,並可根據使用者指令生成長達1分鐘的高畫質**,可以生成具有多個角色和特定動作的複雜場景,即可以理解和模擬運動中的物理世界。
在過去的一年裡,隨著ChatGPT和GPTS的蓬勃發展,文盛影業、文生**、圖晟**等各種產品也相繼湧現。 為什麼 Sora 一經發布就像 ChatGPT 一樣再次掀起波瀾?
1. 效能
與其他文盛產品相比,可生成長達60s的人物和場景連貫性,長期一致性,是SORA的一大優勢。
要知道,在1月24日和2月15日,谷歌研究人員宣布了**生成模型Lumière和Gemini 1演示 5**。 前者可以生成非常高畫質的真實**,並能實現一鍵穿衣,根據**和提示詞**生成動態,而後者在影象識別和多回合對話方面表現出驚人的反天能力。 然而,萬萬沒想到,僅僅十天後,空的悄無聲息的出現,立刻搶走了盧公尺埃爾和雙子座1號5 在聚光燈下。 究其原因,主要基於產品的整體效能。
儘管有 Lumière 和 Gemini 15 已經足夠令人印象深刻了,但它在生成的長度和一致性方面沒有突破**(生成持續時間限制為 5 秒)。 同樣,其他同類產品,如Runway、Pika等,依舊在突破幾秒鐘的連貫性(連貫性極大地影響了**的真實性)。 而 Sora 可以直接生成高達 60 秒和高達 30fps 的每秒**,這在生成時間和一致性方面簡直碾壓了其他同類型別。 不僅如此,Sora 還可以生成各種解像度,包括 1920x1080(寬屏)和 1080x1920(垂直)以及介於兩者之間的所有解像度,最高可達 2048x2048。 這允許 SORA 模型建立改編的內容。 請參閱下表 1。
表1 各種AI模型的持續時間和解像度比較。
當然,SORA相對於其他AI模型也有優勢,包括能夠準確呈現細節,理解物理世界中物體的存在,生成具有豐富情感的角色,甚至模型還可以基於提示、靜止影象生成,甚至可以填補現有**中缺失的幀。
2. 實施
過去,生成式**的主要實現方法是遞迴神經網路(RNN)、生成對抗網路(GAN)、自回歸變壓器(GAN)和擴散模型。 總的來說,基於這些實現的生成模型的缺點是顯而易見的,比如視覺資料類別少、時間短、大小固定等。
SORA基於Transformer的擴散模型架構進行訓練,融合了Transformer的“生成”和擴散模型的“擴散”優勢。 由於其自注意力機制,Transformer 能夠捕獲序列中的長距離依賴關係,這使其在處理具有複雜時空依賴關係的資料方面具有優勢。 同時,由於自注意力機制的特點,基於 Transformer 的模型可以通過矩陣運算進行高效的並行化,因此具有並行處理大規模資料並更快地生成**的能力。 通過整合擴散模型,變壓器擴散模型能夠在生成時保留更多細節和紋理資訊,從而生成更高的質量。 由於使用了變壓器擴散模型,SORA能夠生成各種各樣的影象,並克服了以前方法在長度、尺寸和固定尺寸方面的侷限性。 請參閱下面的表 2。
表2 各發電方法實現方法對比
3. SORA的生成原理
SORA模型的生成原理一般分為三個步驟。 第一種是將視訊壓縮網路壓縮或壓縮成緊湊形式(即降維)。 二是進行時空潛貼,將檢視資訊分解成小單元,每個單元包含檢視中的一部分空間和時間資訊,以便在後續步驟中進行有針對性的處理。 最後是**生成,通過對輸入文字或**進行解碼和編碼,Transformer模型(即ChatGPT基本轉換器)決定如何轉換或組合這些單元,從而形成乙個完整的**。
第 1 步:壓縮網路。
如下圖 1 所示,SORA 模型通過壓縮網路技術將輸入壓縮為低維表示。 這個過程類似於“標準化”不同的尺寸和解像度,以便於處理和儲存。
然後,Sora進一步將這些壓縮的檢視資料分解為所謂的“時空補丁”,每個補丁都攜帶一部分空間和時間資訊,這些資訊構成了視覺內容的基本構建塊。 這樣,在保留原有視覺資訊豐富性的基礎上,SORA還可以將不同的原稿**(不同長度、不同解像度、不同風格等)加工成一致的格式。
第 2 步:提取時間和空間中的潛在補丁。
預訓練的 transformer 模型將提取步驟 1 中生成的電位補丁在時間和空間上的資訊,形成大量的補丁“列表”,記錄檢視資訊表示與其語義的對應關係,為後續生成提供知識材料。
第 3 步:生成 Transformer 模型。
在SORA的生成過程中,Transformer模型接收到時空的潛在補丁(這些潛在補丁來自與生成的目標長度相同的時間段,但內容完全是隨機雜訊),然後SORA開始根據給定的文字提示不斷修改本節中的補丁(在這個過程中, SORA利用從大量資料中學到的知識來決定如何逐步去除噪音),並將噪音轉換為接近文字描述的東西,然後轉換或組合這些片段以產生最終內容。
四、SORA的技術創新
從發布的技術報告來看,它和ChatGPT是一樣的,在底層技術層面,SORA沒有太多的原創性,而是充分利用了現有的先進技術。 然而,在應用體驗方面,它注入了不同於其他同類產品的創新。
在sora的三步過程中,壓縮借鑑了“使用潛在擴散模型進行高解像度影象合成”的思想。 時空潛在補丁的“補丁”(補丁和視覺補丁)的概念取自“Vivit:視訊視覺轉換器”(即 VIT)(谷歌,2021 年)。 變壓器擴散模型模型結構最初是由“Transformer 的擴散模型”(William Peebles, Saining Xie 2022)提出的。
然而,SORA模型在尺寸選擇、語言理解、多模態輸入和多樣化生成方面是獨一無二的。
過去,模型的大小和持續時間會裁剪為標準尺寸,例如 256*256 持續 4 秒。 另一方面,Sora可以直接生成不同大小的**。 例如,1920*1080 用於水平螢幕,1080*1920 用於垂直螢幕。 這允許 Sora 根據裝置的螢幕尺寸生成不同的解像度**。 這主要是由於**網路壓縮技術在應用中對低維空間的“標準化”(見上文)。
根據SORA的技術報告,利用DALL·E3的。同時,使用GPT模型將使用者的簡短提示擴充套件為更詳細的解釋性文字。 通過這些資料增強,SORA模型的語言理解能力得到了提高。
在輸入方面,不僅可以輸入文字提示,還可以輸入**和**,典型的多模態支援。 在生成方面,SORA模型可以編輯、補充和拼接,也可以向前或向後擴充套件。
5. 未來的期望和靈感
當然,從第一代的表現來看,SORA模型還存在很多不足,比如模擬複雜場景的物理現象、理解具體的因果關係、處理空間細節、準確描述隨時間變化的事件等。 但隨著訓練資料的增加和模型的迭代公升級,相信這些缺點將逐步得到改善。
毫無疑問,SORA模式及其後續公升級版本將加速AIGC在行業內的發展和應用,對影視、直播、廣告、動漫、藝術設計等眾多行業產生深遠影響。 特別是在短片**盛行的當下,SORA已經可以承擔短片**攝影、導演和剪輯的任務。
然而,對於OpenAI來說,在開發通用人工智慧的過程中,SORA不僅僅是乙個生成工具。 正如 Sora 的技術文件中的一句話:“我們的結果表明,擴充套件生成模型是構建通用物理世界模擬器的一條有前途的途徑”。 可以看出,OpenAI最終想要做的,是打造乙個通用的“物理世界模擬器”。 從這個意義上說,SORA模型的定位是形成乙個世界模型來模擬現實世界。
數字孿生更多的是通過物理世界的數位化,形成物理世界的“鏡子”,從而增加對物理世界執行狀態的掌握和對規則的控制,並通過對數字虛擬世界的指令干預,對物理世界的執行進行調整、干預和優化。 “世界模型”有望將人類的思想世界和心理世界充分具體化,並與真實物理世界的狀態和執行進行比較,最終形成物理世界的狀態和執行的期待和轉化策略。 因此,SORA模型不僅是一流的生成模型,而且是客觀世界模擬器,為模擬世界開闢了道路。