視覺中國。
文字 |Light Cone Intelligence, 作者 |郝新,王亦素、劉雨琪主編。2024 年初,OpenAI 向世界投下了另一顆 AI 炸彈——*生成模型 Sora。
就像一年前的ChatGPT一樣,SORA被認為是AGI(通用人工智慧)的另乙個里程碑時刻。
SORA意味著AGI的實現將從10年縮短到1年“,360董事長周弘毅預測。
但這個模型之所以如此聳人聽聞,不僅僅是因為 AI 一代需要更長的時間和更高的清晰度,而且 OpenAI 已經超越了之前所有 AIGC 的能力,並生成了與現實世界相關的內容。
荒謬的賽博朋克很酷,但正是人工智慧讓現實世界中的一切都變得更有意義。
為此,OpenAI提出了乙個全新的概念——世界模擬器
在OpenAI官方發布的技術報告中,SORA定位為:“生成模型作為世界的模擬器”,“我們的結果表明,擴充套件生成模型是構建物理世界通用模擬器的可行方法。 ”
資料來源:OpenAI官網)。
OpenAI認為SORA為能夠理解和模擬真實世界的模型奠定了基礎,這將是實現AGI的乙個重要里程碑。至此,在ai**賽道上與Runway、PIKA等公司完全拉開了距離。
從文字(chatgpt)到**(dall·e)再到**(sora),對於OpenAI來說,它似乎在一塊一塊地收集拼圖,試圖通過影象媒體的形式徹底打破虛擬與現實的界限,成為電影的“頭號玩家”。
如果說蘋果的Vision Pro是硬體的化身表現,那麼乙個能夠自動構建最佳虛擬世界的AI系統就是靈魂。
語言模型近似於人腦,模型近似於物理世界,“愛丁堡大學博士生姚傅說。
OpenAI的野心出乎所有人的想象,但似乎是唯一能做到的“,多位AI創業者向Light Cone Intelligence感嘆道。
OpenAI 新發布的 SORA 模型在 2024 年開啟了 AI** 賽道的大門,在 2023 年之前完全與舊世界劃清了界限。
在一口氣發布的48個Demo中,Light Cone Intelligence發現,過去被AI詬病的問題,大部分都得到了解決:生成畫面更清晰、生成效果更逼真、理解能力更準確、邏輯理解能力更流暢、生成結果更穩定一致等等。
但這一切只是OpenAI所揭示的冰山一角因為OpenAI從一開始就瞄準的不是**,而是所有存在的影象。
影象是乙個更大的概念,是它的乙個子集,例如在街上滾動的大螢幕、遊戲世界的虛擬集合等。 OpenAI想要做的,就是以**為切入點,覆蓋所有影象,模擬和理解現實世界,也就是它所強調的“世界模擬器”的概念。
正如AI電影《山海仙境》和行賢文化的製片人陳坤告訴光錐智慧型,“OpenAI正在向我們展示它在質量方面的能力,但真正的目的是獲取人們的反饋資料,探索人們想要生成的東西。 就像大規模模型訓練一樣,工具一旦開啟,就相當於全世界的人都在為它工作,通過不斷的標註和輸入,世界模型變得越來越智慧型。 ”
所以我們看到,人工智慧成為理解物理世界的第一階段,主要突出其作為“生成模型”的屬性; 只有在第二階段,它才能提供作為“世界模擬器”的價值。
把握SORA的“**生成”屬性的核心,就是要找到差異也就是說,SORA與Runway和PIKA的區別體現在**? 這個問題至關重要,因為它在某種程度上解釋了為什麼 Sora 能夠粉碎。
首先,OpenAI 遵循訓練大型語言模型的想法使用大規模視覺化資料來訓練具有通用功能的生成模型。
這與文盛**領域“專人”的邏輯完全不同。 去年,Runway 也有類似的計畫,它稱之為“環球世界模式”,有著類似的想法,但沒有後續,而這次 Sora 是第乙個實現 Runway 夢想的人。
據紐約大學助理教授謝賽寧介紹,SORA引數的數量在30億左右,與GPT模型相比微不足道,但這個數量級已經遠遠超過了Runway、Pika等一些公司,堪稱降維打擊。
萬興科技AI創新中心總經理齊伯全表示,SORA的成功再次驗證了“大力創造奇蹟”的可能性,“SORA依舊遵循OpenAI的擴容規律,依靠大力奇蹟、海量資料、大模型、海量算力。 SORA底層採用在遊戲、無人駕駛、機械人等領域驗證的世界模型,構建文盛**模型,實現模擬世界的能力。 ”
其次,SORA首次展示了擴散模型和大模型功能的完美整合。
AI**就像一部大片,取決於兩個重要元素:劇本和特效。 其中,劇本對應AI**生成過程中的“邏輯”,特效對應“效果”。 為了實現“邏輯”和“效果”,區分了兩種技術路徑擴散模型和大模型。
去年年底,光錐智慧型預測,為了同時滿足效果和邏輯,擴散和大模型兩條路線最終會融合。 沒想到,OpenAI這麼快就解決了這個問題。
資料來源:OpenAI官網)。
OpenAI 的技術報告強調了以下內容:“我們將各種型別的視覺資料轉換為統一的表示,可用於生成大規模的模型訓練。 ”
具體來說,OpenAI將螢幕的每一幀編碼成視覺補丁,每個補丁類似於GPT中的乙個令牌,成為影象中最小的測量單位,可以隨時隨地被打破和重新組裝。 找到統一資料的方法,統一度量衡,並在擴散模型和大模型之間找到橋梁。
在整個生成過程中,擴散模型仍然負責產生效果的部分,並且在加入大型模型變壓器的注意力機制後,有更多的生成**和推理能力,這就解釋了為什麼SORA可以從現有的獲取的靜態影象中生成**,也可以擴充套件現有的**或填補缺失的圖片幀。
到目前為止,第乙個模型已經呈現出複利的趨勢,在模型向整合邁進的同時,技術也在向複利邁進。
將之前沉澱的技術積累應用到視覺模型中也成為 OpenAI 的優勢。 在SORA Wensheng**的訓練過程中,OpenAI引入了DALL-E3和GPT的語言理解能力。 根據 OpenAI 的說法,基於 DALL-E3 和 GPT 的訓練使 Sora 能夠根據使用者提示準確生成高質量的**。
一組組合拳,結果是模擬能力的出現,這構成了“世界模擬器”的基礎。
我們發現,模型在大規模訓練時會表現出許多有趣的新興功能。 這些能力使 sora能夠模擬人、動物和環境的物理世界的某些方面。 這些特性的出現不會對三維、物體等產生任何明顯的感應偏差- 它們純粹是一種規模現象,“OpenAI 說。
模擬之所以能如此爆炸的根本原因,是因為人們習慣於用大模型來創造不存在的東西,但是卻能準確地理解物理世界的邏輯,比如力是如何相互作用的,摩擦是如何產生的,籃球是如何打拋物線的等等,這些都是以前的模型都無法完成的事情, 這也是SORA超越第一代層次的根本意義。
然而,從演示到實際的成品,它可能是乙個驚喜或恐懼。 Meta首席科學家楊麗坤直接質問Sora,他說:“僅僅能夠根據提示生成逼真的**,並不意味著系統真的理解了物理世界。 與基於世界的因果模型**不同,生成模型只需要從可能性空間中找到乙個合理的樣本,而不需要理解和模擬現實世界的因果關係。 ”
齊伯全還表示,雖然OpenAI已經驗證了基於世界模型的文盛**大模型是可行的,但在物理互動的準確性上也存在困難,雖然SORA可以模擬一些基本的物理互動,但在處理更複雜的物理現象時可能會遇到困難;在處理長期依賴關係方面存在挑戰,即如何及時保持一致性和邏輯性;空間細節的準確性,如果對空間細節的處理不夠準確,可能會影響內容的準確性和可信度。
Sora成為世界模擬器可能已經過了很長一段時間,但就世代而言,它已經對現在的世界產生了影響。
第一種是解決以往技術無法突破的問題,推動一些行業進入新階段。
最典型的是影視製作行業,而索拉這次最具革命性的能力,就是最大世代**時長達到了1分鐘。 作為參考,流行的PIKA的長度為3秒,而Gen-2的跑道長度為18秒,這意味著有了SORA,AI將能夠成為真正的生產力,並實現成本降低和效率提公升。
陳坤告訴光錐情報,在SORA誕生之前,使用AI工具製作科幻電影的成本已經降到了一半,而SORA落地後,更值得期待。
Sora上映後,給他印象最深的是海豚騎自行車的演示。 在那個**中,上半身是海豚,下半身是兩條腿的人,腿上也穿著鞋子。
這對我們來說簡直太棒了! 這幅畫營造出一種有想象空間、符合物理定律的荒誕感,既合理又出乎意料,這就是觀眾可以驚嘆的影視作品,“陳坤說。
陳坤認為Sora將像當年的智慧型手機和抖音一樣,將所有內容創作者的門檻降低一大步,將內容創作者放大乙個數量級。
未來,內容創作者可能不需要拍攝,只需要說一段或一段,就能在腦海中表達自己獨特的想法,就能被更多的人看到。 到時候,我覺得可能會有乙個比抖音更大的新平台。 也許下一步是Sora能夠理解每個人的潛意識想法,並自動生成和建立內容,而無需使用者主動尋求表達,“Chen說。
在同乙個行業裡,也有遊戲,OpenAI技術報告以一款Minecraft遊戲**結尾,旁邊有一句話:“Sora可以用基本策略同時控制Minecraft中的玩家,同時以高保真度呈現世界及其動態。 只需在 Sora 的工具提示中提及“我的世界”,即可在零距離啟用這些功能。 ”
AI遊戲創業者陳習告訴我們,“任何乙個遊戲從業者看到這句話,都驚出一身冷汗! OpenAI毫無保留地展示了它的雄心壯志。 陳習解讀分析,短句傳達了兩件事:Sora在渲染遊戲環境時控制遊戲角色。 “正如OpenAI所說,SORA是乙個模擬器,乙個遊戲引擎,也是想象力和現實世界之間的介面。 在未來的遊戲中,只要你能說出來,畫面就會被渲染出來。 Sora 現在已經學會了構建乙個一分鐘的世界並生成穩定的角色,並且通過他的 GPT-5,一張純 AI 生成的數千平方公里活躍生物的地圖聽起來並不異想天開。 當然,螢幕能否實時生成,是否支援多人線上,是乙個非常現實的問題。 但無論如何,一種新的遊戲模式已經出現,至少與Sora一起生成“我被美少女包圍”變得沒有問題,“Chen說。
第二類是基於模擬世界和在更多領域創造新事物的能力。
愛丁堡大學(University of Edinburgh)的博士生姚傅(Yao Fu)說:“生成模型學習生成資料的演算法,而不是記住資料本身。 正如語言模型對生成語言的演算法(在大腦中)進行編碼一樣,該模型對生成流的物理引擎進行編碼。 語言模型可以被認為是人腦的近似值,而模型是物理世界的近似值。 ”
學習了物理世界的普遍規律,使具身智慧型也更接近人類智慧型。
例如,在機械人領域,之前的傳導過程是先給機械人大腦乙個握手指令,然後再傳遞給手,但由於機械人無法真正理解“握手”的含義,只能將指令轉化為“手的直徑減小多少厘公尺”。 如果世界模擬器成為現實,機械人可以直接跳過指令轉換的過程,一步到位地了解人類指令需求。
跨維度智慧型創始人、華南理工大學教授賈奎告訴光錐智慧型,未來顯式物理模擬或將應用於機械人領域,“SORA的物理模擬是隱含的,它展現了只有其內部對物理世界的理解和模擬才能產生的效果。 ”
SORA功能仍然通過海量資料以及字幕重寫技術來實現,甚至沒有3D顯式建模,更不用說物理模擬了。 雖然產生的效果接近通過物理模擬實現的效果。 但是,物理引擎可以做的不僅僅是生成,還有很多其他元素必須在那裡訓練機械人,“Jaqua說。
雖然SORA仍然存在許多侷限性,但在虛擬世界和現實世界之間已經建立了聯絡,這使得遊戲玩家的頭號虛擬世界和機械人都更像人類成為可能。
更多精彩內容,關注titanium***id:taimeiti),或**titanium**app