索拉,開始你的世界模擬之旅吧!

Mondo 財經 更新 2024-02-23

2024年2月16日,OpenAI發布了**代AI大模型SORA。 訊息一出,業界再次震驚。

OpenAI官網說明:SORA是一種AI模型,根據文字指令生成真實和虛擬場景,並可根據使用者指令生成長達1分鐘的高畫質**,可以生成具有多個角色和特定動作的複雜場景,即可以理解和模擬運動中的物理世界。

在過去的一年裡,隨著ChatGPT和GPTS的蓬勃發展,文盛影業、文生**、圖晟**等各種產品也相繼湧現。 為什麼 Sora 一經發布就像 ChatGPT 一樣再次掀起波瀾?

1. 效能

與其他文盛產品相比,可生成長達60s的人物和場景連貫性,長期一致性,是SORA的一大優勢。

要知道,在1月24日和2月15日,谷歌研究人員宣布了**生成模型Lumière和Gemini 1演示 5**。 前者可以生成非常高畫質的真實**,並能實現一鍵穿衣,根據**和提示詞**生成動態,而後者在影象識別和多回合對話方面表現出驚人的反天能力。 然而,萬萬沒想到,僅僅十天後,空的悄無聲息的出現,立刻搶走了盧公尺埃爾和雙子座1號5 在聚光燈下。 究其原因,主要基於產品的整體效能。

儘管有 Lumière 和 Gemini 15 已經足夠令人印象深刻了,但它在生成的長度和一致性方面沒有突破**(生成持續時間限制為 5 秒)。 同樣,其他同類產品,如Runway、Pika等,依舊在突破幾秒鐘的連貫性(連貫性極大地影響了**的真實性)。 而 Sora 可以直接生成高達 60 秒和高達 30fps 的每秒**,這在生成時間和一致性方面簡直碾壓了其他同類型別。 不僅如此,Sora 還可以生成各種解像度,包括 1920x1080(寬屏)和 1080x1920(垂直)以及介於兩者之間的所有解像度,最高可達 2048x2048。 這允許 SORA 模型建立改編的內容。 請參閱下表 1。

表1 各種AI模型的持續時間和解像度比較。

當然,SORA相對於其他AI模型也有優勢,包括能夠準確呈現細節,理解物理世界中物體的存在,生成具有豐富情感的角色,甚至模型還可以基於提示、靜止影象生成,甚至可以填補現有**中缺失的幀。

2. 實施

過去,生成式**的主要實現方法是遞迴神經網路(RNN)、生成對抗網路(GAN)、自回歸變壓器(GAN)和擴散模型。 總的來說,基於這些實現的生成模型的缺點是顯而易見的,比如視覺資料類別少、時間短、大小固定等。

SORA基於Transformer的擴散模型架構進行訓練,融合了Transformer的“生成”和擴散模型的“擴散”優勢。 由於其自注意力機制,Transformer 能夠捕獲序列中的長距離依賴關係,這使其在處理具有複雜時空依賴關係的資料方面具有優勢。 同時,由於自注意力機制的特點,基於 Transformer 的模型可以通過矩陣運算進行高效的並行化,因此具有並行處理大規模資料並更快地生成**的能力。 通過整合擴散模型,變壓器擴散模型能夠在生成時保留更多細節和紋理資訊,從而生成更高的質量。 由於使用了變壓器擴散模型,SORA能夠生成各種各樣的影象,並克服了以前方法在長度、尺寸和固定尺寸方面的侷限性。 請參閱下面的表 2。

表2 各發電方法實現方法對比

3. SORA的生成原理

SORA模型的生成原理一般分為三個步驟。 第一種是將視訊壓縮網路壓縮或壓縮成緊湊形式(即降維)。 二是進行時空潛貼,將檢視資訊分解成小單元,每個單元包含檢視中的一部分空間和時間資訊,以便在後續步驟中進行有針對性的處理。 最後是**生成,通過對輸入文字或**進行解碼和編碼,Transformer模型(即ChatGPT基本轉換器)決定如何轉換或組合這些單元,從而形成乙個完整的**。

第 1 步:壓縮網路。

如下圖 1 所示,SORA 模型通過壓縮網路技術將輸入壓縮為低維表示。 這個過程類似於“標準化”不同的尺寸和解像度,以便於處理和儲存。

然後,Sora進一步將這些壓縮的檢視資料分解為所謂的“時空補丁”,每個補丁都攜帶一部分空間和時間資訊,這些資訊構成了視覺內容的基本構建塊。 這樣,在保留原有視覺資訊豐富性的基礎上,SORA還可以將不同的原稿**(不同長度、不同解像度、不同風格等)加工成一致的格式。

第 2 步:提取時間和空間中的潛在補丁。

預訓練的 transformer 模型將提取步驟 1 中生成的電位補丁在時間和空間上的資訊,形成大量的補丁“列表”,記錄檢視資訊表示與其語義的對應關係,為後續生成提供知識材料。

第 3 步:生成 Transformer 模型。

在SORA的生成過程中,Transformer模型接收到時空的潛在補丁(這些潛在補丁來自與生成的目標長度相同的時間段,但內容完全是隨機雜訊),然後SORA開始根據給定的文字提示不斷修改本節中的補丁(在這個過程中, SORA利用從大量資料中學到的知識來決定如何逐步去除噪音),並將噪音轉換為接近文字描述的東西,然後轉換或組合這些片段以產生最終內容。

四、SORA的技術創新

從發布的技術報告來看,它和ChatGPT是一樣的,在底層技術層面,SORA沒有太多的原創性,而是充分利用了現有的先進技術。 然而,在應用體驗方面,它注入了不同於其他同類產品的創新。

在sora的三步過程中,壓縮借鑑了“使用潛在擴散模型進行高解像度影象合成”的思想。 時空潛在補丁的“補丁”(補丁和視覺補丁)的概念取自“Vivit:視訊視覺轉換器”(即 VIT)(谷歌,2021 年)。 變壓器擴散模型模型結構最初是由“Transformer 的擴散模型”(William Peebles, Saining Xie 2022)提出的。

然而,SORA模型在尺寸選擇、語言理解、多模態輸入和多樣化生成方面是獨一無二的。

過去,模型的大小和持續時間會裁剪為標準尺寸,例如 256*256 持續 4 秒。 另一方面,Sora可以直接生成不同大小的**。 例如,1920*1080 用於水平螢幕,1080*1920 用於垂直螢幕。 這允許 Sora 根據裝置的螢幕尺寸生成不同的解像度**。 這主要是由於**網路壓縮技術在應用中對低維空間的“標準化”(見上文)。

根據SORA的技術報告,利用DALL·E3的。同時,使用GPT模型將使用者的簡短提示擴充套件為更詳細的解釋性文字。 通過這些資料增強,SORA模型的語言理解能力得到了提高。

在輸入方面,不僅可以輸入文字提示,還可以輸入**和**,典型的多模態支援。 在生成方面,SORA模型可以編輯、補充和拼接,也可以向前或向後擴充套件。

5. 未來的期望和靈感

當然,從第一代的表現來看,SORA模型還存在很多不足,比如模擬複雜場景的物理現象、理解具體的因果關係、處理空間細節、準確描述隨時間變化的事件等。 但隨著訓練資料的增加和模型的迭代公升級,相信這些缺點將逐步得到改善。

毫無疑問,SORA模式及其後續公升級版本將加速AIGC在行業內的發展和應用,對影視、直播、廣告、動漫、藝術設計等眾多行業產生深遠影響。 特別是在短片**盛行的當下,SORA已經可以承擔短片**攝影、導演和剪輯的任務。

然而,對於OpenAI來說,在開發通用人工智慧的過程中,SORA不僅僅是乙個生成工具。 正如 Sora 的技術文件中的一句話:“我們的結果表明,擴充套件生成模型是構建通用物理世界模擬器的一條有前途的途徑”。 可以看出,OpenAI最終想要做的,是打造乙個通用的“物理世界模擬器”。 從這個意義上說,SORA模型的定位是形成乙個世界模型來模擬現實世界。

數字孿生更多的是通過物理世界的數位化,形成物理世界的“鏡子”,從而增加對物理世界執行狀態的掌握和對規則的控制,並通過對數字虛擬世界的指令干預,對物理世界的執行進行調整、干預和優化。 “世界模型”有望將人類的思想世界和心理世界充分具體化,並與真實物理世界的狀態和執行進行比較,最終形成物理世界的狀態和執行的期待和轉化策略。 因此,SORA模型不僅是一流的生成模型,而且是客觀世界模擬器,為模擬世界開闢了道路。

相關問題答案

    胡錫進評論了索拉,說索拉沒什麼意思的人太不負責任了

    鞭牛,月日,胡錫進剛剛對OpenAI日前發布的文盛模型SORA發文評論,稱有人說SORA沒有任何意義,太不負責任了。美國人工智慧公司OpenAI日前發布了SORA技術,可基於文字描述生成長達一分鐘的真實感,引發行業震動。以下為胡錫進評論全文 美國OpenAI公司發布的文盛 模型SORA震撼了全球AI...

    三通溫控閥開啟狀態判斷方法

    觀察指標 一些三通溫控器配有乙個指示燈,通常顯示三通閥的當前開啟狀態。通過檢視指示器上的徽標或顏色,可以判斷三通閥是開啟還是關閉。.檢查管道流量 當三通閥開啟時,它會使流經三個不同通道的介質通過,管道的流量應最大。通過檢查管道的流量,可以快速確定三通閥的開啟狀態。可以使用流量計 流量計等工具檢測管道...

    加入安武通,開啟您的護送生涯之旅

    隨著中國社會老齡化和家庭結構的變化,對專業陪護服務的需求正在迅速增長。在這樣的市場背景下,選擇加盟安胡同這樣的實力派護送品牌,無疑是乙個明智的商業決策。不斷增長的市場需求 當前,中國正面臨嚴重的人口老齡化,越來越多的老年人需要專業的護理和護送服務。此外,繁忙的現代生活方式也使得越來越多的家庭無法全職...

    介紹 OpenAI 的 Sora

    風格 寫實 油畫等 內容 風景 人物 動作 特效等 引數 解像度 幀率 持續時間等。SORA的工作原理 SORA 是一種基於深度學習的模型,使用大量文字和資料進行訓練。在訓練過程中,模型學習文字與文字的對應關係,並能夠根據文字描述生成相應的 如何使用SORA 使用SORA進行構建很容易,只需按照以下...

    誰是中國版的索拉?

    長達一年的 百模大戰 仍未結束,兩大海外AI巨頭給國內科技廠商帶來了麻煩。春節假期結束時,谷歌和OpenAI毫無徵兆地發布了他們新的AI 核武器 谷歌新一代多模態大模型雙子座效能提公升到百萬級的 Pro,秒殺徹底擊殺OpenAI的GPT Turbo,暫時是表面上最強的。後者首款文盛 機型SORA基於...