南洋理工大學俞洋深度解讀 什麼是“世界模式”?

Mondo 科技 更新 2024-02-27

作者:Yu Yang.

編輯:桃子。

隨著SORA的炒作,OpenAI的介紹資料稱SORA為世界模擬器,而世界模型這個詞又重新進入了人們的視野,但介紹世界模型的文章卻很少。

這是對什麼是世界模型的回顧,並討論了 Sora 是否是乙個世界模擬器。

什麼是世界模型?

當“世界”和“環境”這兩個詞在人工智慧領域使用時,通常用於將它們與智慧型體區分開來。

乙個是強化學習,另乙個是機械人技術。

由此可見,世界模型和世界建模是機械人領域最早出現、最常出現的。

也許今天最有影響力的“世界模型”這個詞是 Jurgen 2018 年由 Arxiv 撰寫的題為“世界模型”的文章,該文章最終發表在 Neurips'18 上,標題為“經常性世界模型促進政策演變”。

它沒有定義什麼是世界模型,而是引用了1971年的文獻,對認知科學中人腦的心智模型進行了類比。

心智模型是人腦與周圍世界的映象。

維基百科中描述的心智模型清楚地表明,它可能參與認知、推理和決策過程。 說到心智模型,主要有兩個部分:心理表徵和心理模擬。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-**the term was coined by kenneth craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到目前為止,說起來還很模糊,所以**中的結構圖清楚地解釋了什麼是世界模型。

圖中,縱向V->Z是觀測的低維表示,由VAE實現,水平M->H->M->H是序列下一時刻的表示,由RNN實現,這兩部分加起來就是世界模型。

換句話說,世界模型主要包括狀態表徵和過渡模型,它們也對應於心理表徵和心理模擬。

看到上面的圖片,你可能會想,不就是所有的序列**世界模型嗎?

其實熟悉強化學習的同學一眼就能看出,這張圖的結構是錯的(不完整的),而真實的結構是下圖,RNN的輸入不僅是Z,還有動作動作,這不是通常的序列**(加乙個動作會不會有很大的不同? 是的,新增動作可以使資料分布自由變化,這是乙個巨大的挑戰)。

Jurgen的文章屬於強化學習領域。

那麼,在強化學習中不是有很多基於模型的rls嗎,模型和世界模型有什麼區別呢? 答案是沒有區別,只是一樣。 尤爾根從一段話開始。

基本含義是,無論有多少基於模型的 RL 工作,我都是 RNN 的先驅,我發明了 RNN 來製作模型,我只想做。

在 Jurgen 文章的早期版本中,還提到許多基於模型的 rl,儘管他們學習了模型,但並沒有在模型中完全訓練 rl。

RL在模型中沒有完全訓練的事實,其實並不是基於模型的RL模型之間有什麼區別,而是基於模型的RL方向的長期無奈:模型不夠準確,完全在模型中訓練的RL很差。 這個問題直到最近幾年才得到解決。

聰明的薩頓很久以前就意識到這個模型不夠準確。 1990年,他提出了Dyna框架的**基於動態規劃的學習、規劃和反應的整合架構(發表在ICML上,首先從研討會改為會議),並將該模型稱為行動模型,強調**行動的結果。

RL 同時從真實資料(第 3 行)和模型(第 5 行)中學習,以防止不準確的模型學習策略不佳。

正如你所看到的,世界模型對決策非常重要。 如果你能得到乙個準確的世界模型,你就可以通過世界模型中的反覆試驗找到現實中的最佳決策。

這就是世界模型的核心作用:反事實推理,即決策的結果可以在世界模型中推斷出來,即使是資料中沒有看到的決策。

懂因果推理的同學會熟悉反事實推理這個詞,圖靈獎得主朱迪亞·珀爾的科普著作《為什麼之書》中畫了乙個因果階梯,最低層次是相關性,這是當今大多數**模型主要在做的事情; 中間層是干預,強化學習中的探索是典型的干預; 最高層次是反事實主義,通過想象來回答假設問題。 Judea的反事實推理圖是科學家在大腦中想象的,這與Jurgen在**中使用的圖相似。

左圖:于爾根的世界模型示意圖。 右圖:猶大書中因果關係的階梯。

在這一點上,我們可以得出結論,人工智慧研究人員對世界模型的追求是追求超越資料、進行反事實推理和回答假設問題的能力。 這是人類天生擁有的能力,而目前的人工智慧做得不是很好。 一旦出現突破,AI決策能力將大幅提公升,實現全自動駕駛等場景。

Sora不是乙個世界模擬器

模擬器這個詞更多地用於工程領域,其工作方式就像世界模型一樣,嘗試在現實世界中難以實現的高成本、高風險的試錯。 OpenAI 似乎想重新組合乙個短語,但含義保持不變。

sora生成的**只能通過模糊的提示詞來引導,很難準確控制。 因此,它更像是一種工具,很難將其用作反事實推理的工具,以準確回答假設問題。

甚至很難評估 sora 有多強,因為根本不清楚演示的 ** 與訓練資料有多大不同。

更令人失望的是,這些演示表明 Sora 並沒有學習確切的物理定律。 我曾看到有人指出,索拉一代不符合物理定律【 openai 發布文生**模型 sora,AI 可以理解運動中的物理世界,這是世界模型嗎?那是什麼意思? ]

我猜 OpenAI 發布的這些演示應該基於非常充分的訓練資料,甚至包括 CG 生成的資料。 然而,即便如此,可以用幾個變數的方程來描述的物理定律也沒有掌握。

OpenAI認為,SORA已經證明了通往物理世界模擬器的途徑,但看似簡單的資料堆疊並不是通往更先進智慧型技術的途徑。

相關問題答案

    什麼是邊際收益率? 對定義、計算和實際應用的深入解釋

    邊際產出作為經濟學和生產管理領域的核心概念,是指在某一生產要素的基礎上增加乙個單位的投入,而其他生產要素的投入保持不變,從而增加總產出。這一概念對於理解生產要素的優化配置 生產效率的提高 企業成本的控制具有重要意義。邊際產出是經濟學的乙個基本概念,特別是在微觀經濟學和生產理論中。它衡量當生產要素 例...

    深度解讀大型模型產品生態及應用落地 “Solution Talk”首場直播落下帷幕

    為了幫助開發者更好地了解大模型語料資料聯盟發布的AI大模型語料資料,從AI的角度傳達大模型企業的資料需求,持續服務於大模型產業生態和落地應用,作為大模型語料資料聯盟的發起單位,上海人工智慧實驗室與各成員單位共同打造了 解決方案對話 系列直播。首映式於月日正式開播。解決方案談 首場直播邀請了公尺渡 上...

    深度解讀:避免這10個健康誤區,守護健康生活密碼

    在追求健康生活方式的今天養生已成為人們生活的重要組成部分。然而,隨著資訊的傳播和思想的多樣化,我們可能會對養生產生一些誤解。對於這些常見的健康禁忌,我們需要更深入地研究它們的原因和影響。濕地久坐不動的自然環境可能是我們在潮濕環境中工作或生活的必然條件。但是,過度潮濕會導致潮濕的生長,從而影響身體的正...

    什麼是雅思口語6?深度解讀讓你明白!

    當我們談論雅思口語分時,很多考生可能對這個分數沒有清晰的認識。什麼是雅思口語?達到這個水平需要付出什麼樣的努力?以及如何將其從這個級別提公升到下乙個級別?本文將揭示雅思口語級的真相,並分享一些實用的提高策略。一 雅思口語分的含義及評價標準 什麼是雅思口語?雅思口語考試滿分為分,每個等級都有相應的評價...

    深度解讀:市淨率與每股淨資產的比率是多少?

    市淨率,也稱為淨資產比率,是投資分析中的重要指標。它反映了每股股價與每股淨資產之間的比例關係,計算方式如下 市淨率 每股股價 每股淨資產。在這個公式中,股價是指某一時刻的交易,它代表了市場當前對公司價值的評估。每股淨資產是公司的淨資產除以總股本,代表公司每股的實際資產價值 因此,市淨率實際上反映了市...