key points
根據 OpenAI 的說法,SORA 不僅僅是乙個生成器,更是理解和模擬現實世界的基礎;
SORA生成**長達1分鐘;
SORA 不是純粹的擴散模型,它使用基於 Transformer 的擴散模型,而 GPT 基於 Transformer 架構;
將視覺資料轉換為統一的補丁格式是在SORA模型中實現驚人結果的另乙個關鍵;
楊麗坤是世界模型概念的主要倡導者,他提出,在未來10年內,AI將能夠像人類一樣為外部世界構建認知模型,並基於該模型對世界的下乙個狀態做出決策。
楊麗坤顯然更喜歡自己的V-JEPA是第乙個擁有世界模型的,而不是Sora;
世界模型決定了 AI 是否可以從 2D 螢幕移動到 3D 物理世界,這是成為 AGI 的必要步驟。
比賽開始了。 這位跑道CEO在社交媒體上寫道。
又是OpenAI。 繼GPT顛覆自然語言處理領域之後,2月16日,OpenAI推出了文生模型SORA,這一次,它顛覆了生成領域,以及包括電影、短片、遊戲在內的視覺內容行業。
更重要的是,在部落格文章 Sora 中,Openal 表示 Sora 不僅僅是乙個生成器,更是理解和模擬現實世界的基礎,簡而言之,Sora 裡面有乙個世界模型。 這是 OpenAI 在發布模型時首次強調這一點,而 OpenAI 在發布 GPT 系列模型——甚至是 GPT-4——時並沒有表達這一點。
在Sora發布的同一天,AI巨頭Meta也發布了一款聲稱基於世界模型V-Jepa的模型。 與生成式SORA不同,V-JEPA不是生成式的,它會根據上下文猜測被遮擋的資訊,即影象的缺失部分。
SORA會比GPT創造更多的價值嗎? 它的出現對**製作公司或抖音、YouTube、派拉蒙等分享平台意味著什麼? 為什麼 OpenAI 和 Meta 在發布 ** 模型時都強調擁有世界模型的基礎? 什麼是世界模型? 世界模型對人工智慧意味著什麼? 為什麼 OpenAI 製作了 SORA 而不是其他產品? 以下是這些基本問題的答案:
與Runway相比,Sora更強?
早在2022年,清華大學與智源教育學院聯合推出的首個開源模型,就能產生像獅子一樣的神奇**飲水。 此後,Runway、Stability AI等公司陸續推出模型進入這一賽道,不久前在AI圈紅極一時的Pika也是如此。
OpenAI雖然是ChatGPT文字生成模型領域的佼佼者,但在**生成領域卻是新人。 但是,只要您在部落格上看到SORA展示的示例**,就不得不承認SORA在一代的長度和質量上都落後於以前的模型**。
持續時間: 01:00
*中間的女人走在日本城市的街道上,鏡頭在1分鐘內切換了幾次。
SORA相對於其他文盛機型最明顯的優勢是生成的**可以長達1分鐘。 以前,生成的**通常只有幾秒鐘,例如,鼠兔只能生成3秒,而最複雜的跑道最多只能生成18秒。
據研究統計,從1930年代到1940年代,荷里活電影的平均鏡頭長度約為10秒,而這個數值在2000年後下降到不到4秒。 不過,這個統計數字只反映了鏡頭的平均時長,還是需要通過長短鏡頭交替來達到高質量的影象表現力,時長長達1分鐘的SORA的適用性顯然會強很多。
持續時間: 00:17
*一對夫婦漫步在日本的街道上,從遠處和近處跟隨他們。
此外,SORA 還具有其他文盛**模型所不具備的更多令人驚訝的功能,OpenAI 將其稱為 3D 連續性、遠距離相關性和物件永續性。 3D連續性和遠距離相關性意味著隨著攝像機的移動,三維空間中的物體和場景也會相應變化; 物體永續性是指鏡頭內的物體可以暫時被遮擋或從鏡頭中移除。
這些是我們在日常生活中拍攝時經常出現的鏡頭,但對於AI生成來說,它們確實很難。 在現實世界中,3D連續性和物體永續性的概念是不言而喻的,因為這些是物理世界的基本定律,AI在不了解這些定律的情況下模擬近似效果,這似乎暗示著SORA也可以像GPT模型一樣出現學習定律。
持續時間: 00:17
*海邊的城堡與聖誕村無縫相連。
而且SORA生成**的方式更加靈活。 除了使用文字提示生成外,SORA還支援生成和編輯。 輸入乙個靜態**,SORA可以直接使**移動。 Sora 還支援向前或向後擴充套件一段,還可以連線不同的樣式。 此外,使用者可以通過文字命令編輯現有的**,例如將道路上行駛的汽車的**背景環境替換為茂密的叢林。
SORA發布後,不僅RUNWAY的CEO被迫做出了本文開頭提到的回應,PIKA的創始人也回應**,他正在準備收費,將直接對SORA進行基準測試。 另一家中國文盛**公司愛石科技的一名員工告訴Neocortex,Sora的路線非常鼓舞人心,公司組織了乙個技術團隊,試圖盡快重現它,但目前還沒有結果。
Sora的成功再次驗證了生成式AI創造奇蹟的必要性?
由於OpenAI尚未發布SORA模型的技術細節,根據其發布的技術報告,SORA的核心與兩點有關:一是使用基於Transformer的擴散模型; 第二種是將不同型別的視覺資料轉換為稱為補丁的統一格式,以便可以使用更多的資料來訓練模型。
首先,SORA不是乙個純粹的擴散模型,後者是Runway、Pika、Midjourney等影象和模型開發商使用的演算法。 早在 2021 年,Google Brain 團隊就推出了一款名為 Vision Transformer (VIT) 的模型,該模型通過計算同一影象中畫素之間的依賴關係來識別影象。 在此之前,語言和視覺被視為不同的東西。 語言是線性的、順序的,而視覺是一種具有空間結構的平行資料。 但 Transformer 證明 ** 也可以作為序列問題來解決,而 ** 是乙個由畫素組成的句子。 不僅如此,大多數問題都可以轉化為序列問題,例如蛋白質結構,這也依賴於氨基酸序列的學習。 **這只是乙個連續的**。
將視覺資料轉換為統一的補丁格式,是SORA模型取得驚人效果的另乙個關鍵,即如何獲得海量資料、優良品質、高價效比的算力。
壓縮後的**被切成許多小方塊,這些小塊就像大語言模型中的基礎資料單元標記,是訓練前的基礎材料。 這種方法大大提高了資料預處理的效率,在此之前,如果要將資料輸入到模型中進行訓練,則需要做大量的預處理工作,例如確保訓練材料的解像度、縱橫比等格式統一。 而將**切成補丁後,前處理工作就容易多了,任何格式的**最終都會被切割成相同格式的補丁,就像樂高的所有部件都是統一的小塊一樣。 最後,每個補丁將通過新增時間維度公升級為時空補丁。
SORA 基於 OpenAI 的影象生成模型 Dall·E 3 和自然語言理解模型 GPT。例如,每個段落的詳細描述,包括人物、環境、風格、鏡頭等,都是基於Dall·e 3為視覺訓練資料生成的高度描述性標題; 此外,OpenAI 利用 GPT 將簡短的使用者提示轉換為更長的詳細字幕,然後將其傳送到模型。 根據 OpenAI 的說法,這使 Sora 能夠生成準確滿足使用者需求的高質量產品。
通過將時空補丁與 Dall·E 3 和 GPT 並將其輸入到模型中進行訓練,SORA 最終可以將文字描述對映到時空補丁上。OpenAI表示,與大型語言模型類似,SORA模型也顯示出一種模式,即模型在訓練資料的大小越大時表現更好。
為什麼說SORA不僅生成**,還生成世界模型?
在OpenAI的定義中,SORA不僅僅是乙個**生成器,更是AI能夠理解和模擬現實世界的基礎,總之,SORA裡面有乙個世界模型。
持續時間: 00:15
兩艘裝在咖啡杯中的海盜船正在進行海戰。
OpenAI的結論是基於SORA模擬現實世界的能力,特別是在表示世界的各種物理屬性方面,OpenAI與SORA生成的一系列**旨在證明這一點。 在沸騰的咖啡中冒泡的船內和周圍形成的泡沫是如此逼真,以至於索拉似乎已經掌握了流體動力學; 隨著攝像機的移動,SORA生成的物體和場景可以隨著3D空間的變化而發生相應的變化,就好像模型理解了......3D透視
在看到 Sora 的作品後,Nvidia 資深科學家 Jim Fan 也在社交**平台上表示,Sora 不僅僅是乙個創意玩具,它是乙個資料驅動的物理引擎和對現實世界的模擬。 」
但圖靈獎得主Yann Lecun並不買賬。 他在社交媒體平台上表示,通過生成畫素來模擬世界太昂貴,注定要失敗。 他認為,僅僅基於文字提示生成乙個看似逼真的**,並不意味著模型真正理解了物理世界。 文盛的過程與基於世界模型的因果模型完全不同。 經常和楊麗坤吵架的馬庫斯,這次也站在了老對手的一邊。
乙個模型是否掌握了世界模型,是去年ChatGPT發布後,乙個實際上引發了業內爭論的問題。 以華盛頓大學語言學家 Emily M. 的名字命名Bender認為,大型語言模型(LLM)只不過是隨機鸚鵡,它們不理解現實世界,而只是計算乙個單詞出現的概率,然後隨機產生看起來像鸚鵡一樣合理的單詞和短語。 楊麗坤也有同樣的立場。
對立派認為,在大型語言模型中已經存在乙個世界模型,尤其是在 GPT 的規模上。 根據哈佛大學-麻省理工學院的研究,大型語言模型(LLMS)在多個尺度上學習空間和時間的線性表示,這些表示對不同的線索變化具有魯棒性,並且在不同的環境型別(如城市和地標)中是統一的。 吳恩達後來在他的專欄中說:“我相信法學碩士已經建立了乙個足夠複雜的世界模型,我可以肯定地說,在某種程度上,他們確實理解了世界。 與楊麗坤同時獲得圖靈獎的傑弗里·辛頓(Geoffrey Hinton)與吳恩達有著相同的觀點。
同樣的論點似乎在索拉身上重演。 不過,這是OpenAI在發布模型時首次聲稱自己有潛力構建世界模型,而OpenAI在GPT系列模型(甚至GPT-4)發布時並沒有表達這一點。
究竟什麼是世界模型?
顧名思義,世界模型是對真實物理世界的建模,楊麗坤是這一概念的主要支持者。 他曾經提出,在未來10年內,AI應該能夠構建乙個世界模型,乙個可以像人類一樣為外部世界構建認知模型的系統,並基於這個模型對世界的下乙個狀態做出決策。
從2022年開始,楊麗坤就一直在嘗試為AI構建這樣乙個世界模型。 他甚至提出了乙個自治代理應該具備的架構,它由6個核心模組組成,包括:配置器是協調指揮中心,負責協調、配置和執行其他模組下達的指令; 知覺感知世界狀態並提取任務相關資訊,並接受特定任務的配置器呼叫; 世界模型估計感知器未提供的關於世界狀態的缺失資訊,並做出合理的世界未來狀態,包括由Actor模組提出的一系列動作產生的世界的未來狀態; 演員負責尋找最佳行動方案; 成本模組負責計算智慧型體的不適值,目標是最小化未來價值的內在成本。 短期記憶負責跟蹤當前和**世界的狀態以及相關成本。
在這個智慧型體系統中,世界模型只是其中乙個模組,它負責感知器沒有提供的關於世界狀態的缺失資訊,以便整個架構中的決策者可以利用這些資訊來做出決策和規劃路徑。 楊麗坤認為,只有能夠做規劃的AI才能被稱為通用人工智慧(AGI),而目前包括GPT在內的LLMS並不具備這種規劃能力,因為它們缺乏對世界運作方式的常識。 這種常識不僅包括人際關係,還包括重力和慣性等物理感知,這些感知被稱為世界模型,因此當機器看到蘋果離開樹枝時,它們可以判斷它接下來會落在下面的地面上,而不是向左、向右或其他方向。 無論如何描述,這種資料在語言上都不像視覺資料那樣豐富。
2 月 16 日,也就是 SORA 發布的同一天,Meta 還發布了乙個名為 V-JEPA(視訊聯合嵌入預測架構)的 *** 模型。 與完全生成下乙個補丁的 Sora 不同,V-Jepa 是乙個非生成模型。 它通過***的隱藏或缺失部分的抽象表示來學習,meta 沒有說明這種抽象表示是否是文字,但可以肯定的是,它不是畫素,而是比畫素更抽象的資料表示。
通過這種方式,Meta 試圖讓模型專注於從內容的高階層次從概念上理解影象,而不必擔心通常對完成任務無關緊要的細節,例如 Sora 生成的 Ships in Coffee 中豐富的氣泡,這可能不是 V-Jepa 的物件。
V-JEPA是朝著更紮實地理解世界邁出的一步,因此機器可以實現更一般的推理和規劃。 楊麗坤在V-JEPA發布後表示,這個工具可以作為物理世界的早期模型——你不必看到眼前發生的一切,模型可以在概念上告訴你那裡發生了什麼。
作為Meta的副總裁兼首席AI科學家,以及JEPA系列模型的領導者,楊麗坤顯然更希望自己的V-JEPA成為第乙個擁有世界模型的,而不是SORA。 下一步,Meta 可能會使用 V-Jepa 作為實驗規劃和持續決策的代理模組。
為什麼擁有世界模型很重要?
對世界模型的追求,並聲稱擁有這種能力,不僅僅是乙個好聲音,它決定了乙個AI能否從2D螢幕移動到3D物理世界,這是成為AGI的必要步驟。
ChatGPT發布後,全球各大機械人公司都在嘗試將GPT放入機械人的大腦中。 但他們都知道,機械人僅僅懂語言是不夠的,為了在真實的物理世界中行走,機械人的系統必須能夠理解現實世界中發生的各種物理事件才能生存:如果乙個蘋果掉下來,它會撞到它的頭; 當玻璃被扔出時,如果它接觸到物體就會碎裂; 如果乙個人來自另一邊,需要多長時間才能找到他......
因此,在2023年下半年,機械人領域的一大趨勢是讓機械人在閱讀千書後旅行千里(載入GPT)——在物理空間訓練機械人。 2023 年 7 月,Google Deepmind 團隊推出了一款名為 RT-2(Robotic Transformer 2)的機械人,它允許操作員通過自然語言指導 RT-2 機械人完成任務,即使它沒有接受過任務訓練。 它通過使用將語言模型與體能訓練資料相結合的復合模型來實現這一點。
在聽說要抓住滅絕的動物後,RT-2抓住了恐龍。
谷歌首先在辦公車間環境中訓練了 13 個機械人 17 個月,並將生成的資料載入到基於大型語言模型的視覺化語言模型 (VLM) 中,從而產生了視覺化語言操作 (VLA) 模型,即 RT-2。
如果 SORA 可以載入到 RT-2 中,那麼它可能不需要在物理辦公環境中接受 17 個月的培訓。 Sora的視覺生成功能可以根據現有的場景狀態生成下一幀,也就是接下來可能發生的事情,以便智慧型體提前做好準備。
當然,Sora 和 V-Jepa 目前都不是足夠穩定的發電機或發電機。 V-Jepa沒有展示它生成的**,OpenAI也在**中承認,SORA生成的**並不完美,它仍然會生成不符合物理定律的圖片,例如,在生成的**中,乙個人咬了一塊餅乾卻沒有留下咬痕,乙個人在跑步機上向相反的方向奔跑, 並且杯子打翻後杯子的方向沒有改變,杯子裡的液體先流出來......然而,在成功生成的**中,3D空間中的物體和場景已經隨著攝像機的移動而發生了變化。 這是 Runway 和 Pika 都無法做到的事情。