索拉，開始你的世界模擬之旅吧！

2024年2月16日，OpenAI發布了**代AI大模型SORA。訊息一出，業界再次震驚。

OpenAI官網說明：SORA是一種AI模型，根據文字指令生成真實和虛擬場景，並可根據使用者指令生成長達1分鐘的高畫質**，可以生成具有多個角色和特定動作的複雜場景，即可以理解和模擬運動中的物理世界。

在過去的一年裡，隨著ChatGPT和GPTS的蓬勃發展，文盛影業、文生**、圖晟**等各種產品也相繼湧現。為什麼 Sora 一經發布就像 ChatGPT 一樣再次掀起波瀾？

1. 效能

與其他文盛產品相比，可生成長達60s的人物和場景連貫性，長期一致性，是SORA的一大優勢。

要知道，在1月24日和2月15日，谷歌研究人員宣布了**生成模型Lumière和Gemini 1演示 5**。前者可以生成非常高畫質的真實**，並能實現一鍵穿衣，根據**和提示詞**生成動態，而後者在影象識別和多回合對話方面表現出驚人的反天能力。然而，萬萬沒想到，僅僅十天後，空的悄無聲息的出現，立刻搶走了盧公尺埃爾和雙子座1號5 在聚光燈下。究其原因，主要基於產品的整體效能。

儘管有 Lumière 和 Gemini 15 已經足夠令人印象深刻了，但它在生成的長度和一致性方面沒有突破**（生成持續時間限制為 5 秒）。同樣，其他同類產品，如Runway、Pika等，依舊在突破幾秒鐘的連貫性（連貫性極大地影響了**的真實性）。而 Sora 可以直接生成高達 60 秒和高達 30fps 的每秒**，這在生成時間和一致性方面簡直碾壓了其他同類型別。不僅如此，Sora 還可以生成各種解像度，包括 1920x1080（寬屏）和 1080x1920（垂直）以及介於兩者之間的所有解像度，最高可達 2048x2048。這允許 SORA 模型建立改編的內容。請參閱下表 1。

表1 各種AI模型的持續時間和解像度比較。

當然，SORA相對於其他AI模型也有優勢，包括能夠準確呈現細節，理解物理世界中物體的存在，生成具有豐富情感的角色，甚至模型還可以基於提示、靜止影象生成，甚至可以填補現有**中缺失的幀。

2. 實施

過去，生成式**的主要實現方法是遞迴神經網路（RNN）、生成對抗網路（GAN）、自回歸變壓器（GAN）和擴散模型。總的來說，基於這些實現的生成模型的缺點是顯而易見的，比如視覺資料類別少、時間短、大小固定等。

SORA基於Transformer的擴散模型架構進行訓練，融合了Transformer的“生成”和擴散模型的“擴散”優勢。由於其自注意力機制，Transformer 能夠捕獲序列中的長距離依賴關係，這使其在處理具有複雜時空依賴關係的資料方面具有優勢。同時，由於自注意力機制的特點，基於 Transformer 的模型可以通過矩陣運算進行高效的並行化，因此具有並行處理大規模資料並更快地生成**的能力。通過整合擴散模型，變壓器擴散模型能夠在生成時保留更多細節和紋理資訊，從而生成更高的質量。由於使用了變壓器擴散模型，SORA能夠生成各種各樣的影象，並克服了以前方法在長度、尺寸和固定尺寸方面的侷限性。請參閱下面的表 2。

表2 各發電方法實現方法對比

3. SORA的生成原理

SORA模型的生成原理一般分為三個步驟。第一種是將視訊壓縮網路壓縮或壓縮成緊湊形式（即降維）。二是進行時空潛貼，將檢視資訊分解成小單元，每個單元包含檢視中的一部分空間和時間資訊，以便在後續步驟中進行有針對性的處理。最後是**生成，通過對輸入文字或**進行解碼和編碼，Transformer模型（即ChatGPT基本轉換器）決定如何轉換或組合這些單元，從而形成乙個完整的**。

第 1 步：壓縮網路。

如下圖 1 所示，SORA 模型通過壓縮網路技術將輸入壓縮為低維表示。這個過程類似於“標準化”不同的尺寸和解像度，以便於處理和儲存。

然後，Sora進一步將這些壓縮的檢視資料分解為所謂的“時空補丁”，每個補丁都攜帶一部分空間和時間資訊，這些資訊構成了視覺內容的基本構建塊。這樣，在保留原有視覺資訊豐富性的基礎上，SORA還可以將不同的原稿**（不同長度、不同解像度、不同風格等）加工成一致的格式。

第 2 步：提取時間和空間中的潛在補丁。

預訓練的 transformer 模型將提取步驟 1 中生成的電位補丁在時間和空間上的資訊，形成大量的補丁“列表”，記錄檢視資訊表示與其語義的對應關係，為後續生成提供知識材料。

第 3 步：生成 Transformer 模型。

在SORA的生成過程中，Transformer模型接收到時空的潛在補丁（這些潛在補丁來自與生成的目標長度相同的時間段，但內容完全是隨機雜訊），然後SORA開始根據給定的文字提示不斷修改本節中的補丁（在這個過程中， SORA利用從大量資料中學到的知識來決定如何逐步去除噪音），並將噪音轉換為接近文字描述的東西，然後轉換或組合這些片段以產生最終內容。

四、SORA的技術創新

從發布的技術報告來看，它和ChatGPT是一樣的，在底層技術層面，SORA沒有太多的原創性，而是充分利用了現有的先進技術。然而，在應用體驗方面，它注入了不同於其他同類產品的創新。

在sora的三步過程中，壓縮借鑑了“使用潛在擴散模型進行高解像度影象合成”的思想。時空潛在補丁的“補丁”（補丁和視覺補丁）的概念取自“Vivit：視訊視覺轉換器”（即 VIT）（谷歌，2021 年）。變壓器擴散模型模型結構最初是由“Transformer 的擴散模型”（William Peebles， Saining Xie 2022）提出的。

然而，SORA模型在尺寸選擇、語言理解、多模態輸入和多樣化生成方面是獨一無二的。

過去，模型的大小和持續時間會裁剪為標準尺寸，例如 256*256 持續 4 秒。另一方面，Sora可以直接生成不同大小的**。例如，1920*1080 用於水平螢幕，1080*1920 用於垂直螢幕。這允許 Sora 根據裝置的螢幕尺寸生成不同的解像度**。這主要是由於**網路壓縮技術在應用中對低維空間的“標準化”（見上文）。

根據SORA的技術報告，利用DALL·E3的。同時，使用GPT模型將使用者的簡短提示擴充套件為更詳細的解釋性文字。通過這些資料增強，SORA模型的語言理解能力得到了提高。

在輸入方面，不僅可以輸入文字提示，還可以輸入**和**，典型的多模態支援。在生成方面，SORA模型可以編輯、補充和拼接，也可以向前或向後擴充套件。

5. 未來的期望和靈感

當然，從第一代的表現來看，SORA模型還存在很多不足，比如模擬複雜場景的物理現象、理解具體的因果關係、處理空間細節、準確描述隨時間變化的事件等。但隨著訓練資料的增加和模型的迭代公升級，相信這些缺點將逐步得到改善。

毫無疑問，SORA模式及其後續公升級版本將加速AIGC在行業內的發展和應用，對影視、直播、廣告、動漫、藝術設計等眾多行業產生深遠影響。特別是在短片**盛行的當下，SORA已經可以承擔短片**攝影、導演和剪輯的任務。

然而，對於OpenAI來說，在開發通用人工智慧的過程中，SORA不僅僅是乙個生成工具。正如 Sora 的技術文件中的一句話：“我們的結果表明，擴充套件生成模型是構建通用物理世界模擬器的一條有前途的途徑”。可以看出，OpenAI最終想要做的，是打造乙個通用的“物理世界模擬器”。從這個意義上說，SORA模型的定位是形成乙個世界模型來模擬現實世界。

數字孿生更多的是通過物理世界的數位化，形成物理世界的“鏡子”，從而增加對物理世界執行狀態的掌握和對規則的控制，並通過對數字虛擬世界的指令干預，對物理世界的執行進行調整、干預和優化。 “世界模型”有望將人類的思想世界和心理世界充分具體化，並與真實物理世界的狀態和執行進行比較，最終形成物理世界的狀態和執行的期待和轉化策略。因此，SORA模型不僅是一流的生成模型，而且是客觀世界模擬器，為模擬世界開闢了道路。

索拉，開始你的世界模擬之旅吧！

相關問題答案

胡錫進評論了索拉，說索拉沒什麼意思的人太不負責任了

三通溫控閥開啟狀態判斷方法

加入安武通，開啟您的護送生涯之旅

介紹 OpenAI 的 Sora

誰是中國版的索拉？