作者:Yu Yang.
編輯:桃子。
隨著SORA的炒作,OpenAI的介紹資料稱SORA為世界模擬器,而世界模型這個詞又重新進入了人們的視野,但介紹世界模型的文章卻很少。
這是對什麼是世界模型的回顧,並討論了 Sora 是否是乙個世界模擬器。
什麼是世界模型?
當“世界”和“環境”這兩個詞在人工智慧領域使用時,通常用於將它們與智慧型體區分開來。
乙個是強化學習,另乙個是機械人技術。
由此可見,世界模型和世界建模是機械人領域最早出現、最常出現的。
也許今天最有影響力的“世界模型”這個詞是 Jurgen 2018 年由 Arxiv 撰寫的題為“世界模型”的文章,該文章最終發表在 Neurips'18 上,標題為“經常性世界模型促進政策演變”。
它沒有定義什麼是世界模型,而是引用了1971年的文獻,對認知科學中人腦的心智模型進行了類比。
心智模型是人腦與周圍世界的映象。
維基百科中描述的心智模型清楚地表明,它可能參與認知、推理和決策過程。 說到心智模型,主要有兩個部分:心理表徵和心理模擬。
an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-**the term was coined by kenneth craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.到目前為止,說起來還很模糊,所以**中的結構圖清楚地解釋了什麼是世界模型。
圖中,縱向V->Z是觀測的低維表示,由VAE實現,水平M->H->M->H是序列下一時刻的表示,由RNN實現,這兩部分加起來就是世界模型。
換句話說,世界模型主要包括狀態表徵和過渡模型,它們也對應於心理表徵和心理模擬。
看到上面的圖片,你可能會想,不就是所有的序列**世界模型嗎?
其實熟悉強化學習的同學一眼就能看出,這張圖的結構是錯的(不完整的),而真實的結構是下圖,RNN的輸入不僅是Z,還有動作動作,這不是通常的序列**(加乙個動作會不會有很大的不同? 是的,新增動作可以使資料分布自由變化,這是乙個巨大的挑戰)。
Jurgen的文章屬於強化學習領域。
那麼,在強化學習中不是有很多基於模型的rls嗎,模型和世界模型有什麼區別呢? 答案是沒有區別,只是一樣。 尤爾根從一段話開始。
基本含義是,無論有多少基於模型的 RL 工作,我都是 RNN 的先驅,我發明了 RNN 來製作模型,我只想做。
在 Jurgen 文章的早期版本中,還提到許多基於模型的 rl,儘管他們學習了模型,但並沒有在模型中完全訓練 rl。
RL在模型中沒有完全訓練的事實,其實並不是基於模型的RL模型之間有什麼區別,而是基於模型的RL方向的長期無奈:模型不夠準確,完全在模型中訓練的RL很差。 這個問題直到最近幾年才得到解決。
聰明的薩頓很久以前就意識到這個模型不夠準確。 1990年,他提出了Dyna框架的**基於動態規劃的學習、規劃和反應的整合架構(發表在ICML上,首先從研討會改為會議),並將該模型稱為行動模型,強調**行動的結果。
RL 同時從真實資料(第 3 行)和模型(第 5 行)中學習,以防止不準確的模型學習策略不佳。
正如你所看到的,世界模型對決策非常重要。 如果你能得到乙個準確的世界模型,你就可以通過世界模型中的反覆試驗找到現實中的最佳決策。
這就是世界模型的核心作用:反事實推理,即決策的結果可以在世界模型中推斷出來,即使是資料中沒有看到的決策。
懂因果推理的同學會熟悉反事實推理這個詞,圖靈獎得主朱迪亞·珀爾的科普著作《為什麼之書》中畫了乙個因果階梯,最低層次是相關性,這是當今大多數**模型主要在做的事情; 中間層是干預,強化學習中的探索是典型的干預; 最高層次是反事實主義,通過想象來回答假設問題。 Judea的反事實推理圖是科學家在大腦中想象的,這與Jurgen在**中使用的圖相似。
左圖:于爾根的世界模型示意圖。 右圖:猶大書中因果關係的階梯。
在這一點上,我們可以得出結論,人工智慧研究人員對世界模型的追求是追求超越資料、進行反事實推理和回答假設問題的能力。 這是人類天生擁有的能力,而目前的人工智慧做得不是很好。 一旦出現突破,AI決策能力將大幅提公升,實現全自動駕駛等場景。
Sora不是乙個世界模擬器
模擬器這個詞更多地用於工程領域,其工作方式就像世界模型一樣,嘗試在現實世界中難以實現的高成本、高風險的試錯。 OpenAI 似乎想重新組合乙個短語,但含義保持不變。
sora生成的**只能通過模糊的提示詞來引導,很難準確控制。 因此,它更像是一種工具,很難將其用作反事實推理的工具,以準確回答假設問題。
甚至很難評估 sora 有多強,因為根本不清楚演示的 ** 與訓練資料有多大不同。
更令人失望的是,這些演示表明 Sora 並沒有學習確切的物理定律。 我曾看到有人指出,索拉一代不符合物理定律【 openai 發布文生**模型 sora,AI 可以理解運動中的物理世界,這是世界模型嗎?那是什麼意思? ]
我猜 OpenAI 發布的這些演示應該基於非常充分的訓練資料,甚至包括 CG 生成的資料。 然而,即便如此,可以用幾個變數的方程來描述的物理定律也沒有掌握。
OpenAI認為,SORA已經證明了通往物理世界模擬器的途徑,但看似簡單的資料堆疊並不是通往更先進智慧型技術的途徑。