在過去的一周裡,相信大家的朋友圈都被乙個詞刷過:sora。
2月16日凌晨,在沒有任何預警和訊息披露的情況下,OpenAI突然發布了首款文盛模型:SORA,大幅重新整理了行業多個指標,一次性將生成時間提公升了15倍,顛覆了該領域生成式AI的全球市場格局。
OpenAI新人氣SORA熱度持續發酵,以黑馬身份佔據各大平台話題中心——馬斯克感嘆“人類甘願賭博輸”; 楊麗坤批評“SORA不是世界模型,引數數量可能只有30億”; 周弘毅預測“AGI的實現時間將從10年縮短到1年”......
似乎在一夜之間,人們又回到了一年多前那個焦慮的“chatgpt時刻”。 在爭議之外,索拉的“牛”在哪裡? 對於創業者和行業來說,會不會引出“**?
丁博士在人工智慧領域擁有20多年的研究和工作經驗,曾為矽谷公司PayPal創立了人工智慧平台,並出版了《生成式AI》一書。 中信學院邀請丁磊博士從資深從業者的角度為我們梳理思路。
來源 |中信書院 (ID: CITICBOOK) 作者 |編輯:丁磊|三昧。
從文字到**sora是多麼“可怕”
OpenAI 發布了 Sora 基於一段文字生成的 60 秒**,要知道不久前,谷歌最新的**生成模型 VideoPoet 發布,它的生成**只有 10 秒。
當然,SORA的突破不僅僅在時長上,這60秒**,無論是流暢度和穩定性,還是對光影反射、運動模式等細節的處理,尤其是對物理世界的學習能力,都表現出了非常高的水平。
那麼,Sora究竟是如何根據一段文字生成如此驚人的**的呢?
我們知道**是由一幀一幀連線起來的,如果我們想理解“文字生成”,首先要理解“文字生成”。
近兩年,隨著Midjourney、Stable Diffusion、Dall-E等一流世代工具的出現,以及效能的公升級和強化,幾乎與ChatGPT一起,人們對生成式AI的關注度被推到了前所未有的高度。 這些工具能夠根據提示建立非常不同的風格和豐富的內容,並且它們對細節的處理已經相當不錯(參見圖 1)。
圖1:生成工具生成的影象源:這些生成工具的背後,是一條叫做擴散模型的關鍵技術,它可以連續地將乙個類似馬賽克的**與提示詞提供的資訊結合起來,多次還原,最終形成乙個完整清晰的**。
擴散模型的完整擴散過程包括正向擴散和反向擴散兩個過程(如圖2所示),在正向擴散過程中,**通過逐漸新增高斯雜訊而變得模糊,在反向擴散過程中,通過學習正向和反向過程對模型進行訓練,並將兩者結合起來,形成最終的擴散模型。
圖2:擴散模型擴散過程。
既然我們有了**,為了得到最終的**,我們需要想辦法讓**移動,這需要著名的變形金剛模型。
Transformer 模型是乙個強大的模型,用於處理各種序列問題,乙個是文字生成,ChatGPT 使用 Transformer 模型根據使用者輸入的提示詞生成連續的文字內容。 另一種型別是生成,因為它本質上是由連續的幀組成的,我們也可以將其理解為影象資料的序列,無非是它在影象領域的自然延伸。
在實踐中,SORA將**分解為更小的資料單元補丁(時空片段),每個補丁相當於文字序列模型中的乙個令牌(token),這也是SORA最重要的概念之一。
從SORA生成的**中,我們似乎能夠感知到,它就像擁有了理解世界常識的能力,能夠準確地模擬事物在現實世界中的真實表現,比如最基本的動作連貫性、流體操作的形狀、與動物的光影變化、 物體尺寸的比例等,無不呈現出彷彿在現實生活中拍攝的**,令人嘆為觀止。
例如,給出提示:“鏡頭跟隨一輛白色老式 SUV,頂部有乙個黑色行李架,它加速穿過一條被松樹包圍的陡峭土路,地形陡峭,車輪捲起灰塵。 SORA生成汽車在山間馳騁的**(圖3),而“世界模型”需要**車輪胎與路面的相互作用形成的車輪痕跡,汽車疾馳時揚起的灰塵,以及一系列的光影變化。
圖 3:SORA 生成的 ** 部分截圖 來源:OpenAI 官網。
SORA的出現,不僅在生成領域帶來了新的應用體驗,也讓人們對生成式AI有了新的認識和思考,它具有生成內容和理解世界的能力。
三維看SORA引起的“**”
SORA真正令人驚奇的是,該模型可以理解物體在物理世界中的存在和執行方式,並且該模型可以學習物理世界的規律並準確模擬真實的物理世界。 隨著這種能力的進一步深化,SORA驅動的人工智慧的跨越式發展,將大大拉近我們與未來更加通用的智慧型世界的距離。
點燃AI產業投資熱情。
資本市場一直非常敏感,SORA引爆了資本對AI產業的投資熱情,涉及AI概念的整體軌跡,更多的人看到了生成式AI的發展和希望。 其中,科技巨頭仍走在前列,國內外科技巨頭都在加大對AI技術的持續投入。
隨後,無論是網際網絡、資訊、金融、零售等行業,都有更多企業宣布積極投入大模型和AI相關布局的研發。 越來越多的投資者也意識到,要使人工智慧在特定行業得到更廣泛和更深入的應用,需要更多的投入和耐心,這對生產力水平的提高和產業結構的調整和發展也具有深遠的意義。
給行業帶來了“巨大的地震”
最先受到影響的無疑是影視、短片、廣告、互動娛樂等。 SORA可以快速生成高質量的**內容,大大降低了特效和高風險鏡頭的製作成本,提高了內容製作的效率。 借助SORA,廣告公司可以快速建立滿足市場需求的最佳廣告,縮短從創意到成品的週期。
而這將是一把雙刃劍,**內容製作成本和門檻將大大降低,同時也會加劇行業競爭,它對創作者提出了更高的要求,創作者必須不斷創新,才能保持自己作品的吸引力和市場占有率。
我們離失業還很遠嗎?
不僅**,生成式AI帶動了文字、影象、音訊等各種內容生成技術的快速發展,應用場景的快速演進,將影響到各行各業,這也加劇了人們的擔憂和擔憂,有人不禁感嘆“矽基生命終將取代碳基生命”和“AI接管人類社會的步伐正在加快”。 有些人可能會選擇完全“躺平”,認為人工智慧進化得太快了,甚至可以學習物理世界,而我們離失業還很遙遠!
目前,各種生成式AI模型仍處於發展階段,還有待進一步應用,現在談論它們是否能取代人類的工作還為時過早,但這並不能否認AI的影響。 人工智慧帶來的變化深深植根於各行各業,深深植根於我們生活的每乙個角落。
人工智慧的快速發展將大大提高生產效率和工作方式,重新定義人在工作中的位置。 隨著越來越多的新職業和新崗位的出現,如AI產品經理、提示工程師、AI創作者、AI調音師等,這些職業的需求和數量將逐漸增加,可以說AI也會帶來職業結構的變化。
與其說是AI取代了從業者,不如說是AI取代了枯燥繁重的工作內容,AI不會淘汰人類,而是淘汰落後的生產力。 當談到人工智慧時,我們不應該將其視為競爭對手,而應將其視為我們合作、訓練和使用的合作夥伴。 俗話說,君子不一樣,做事就行。
從SORA到世界模型的生成式AI的未來就在這裡。
面對SORA帶來的衝擊,人們的反應也可以說是喜憂參半。 一方面,我們見證了生成式AI的又乙個“奇蹟”,另一方面,我們或許會發現,大型語言模型離解決實際問題還很遙遠,“馴服”大型模型還需要時間。
一些研究聲稱,隨著越來越多的人使用它,大型模型似乎變得更笨,甚至出現了“幻覺”。 造成這個問題的主要原因是,目前主流的生成模型仍然缺乏對物理世界的理解,以至於普通人容易回答的問題在大模型眼中無法給出正確的輸出。
SORA的出現讓我們更加意識到了這個問題,也為生成式AI的未來發展提供了方向,就是讓大模型理解和學習物理世界,建立大模型與物理世界的聯絡。 這將不可避免地導致人工智慧的新應用和突破。 有人認為,SORA意味著實現通用人工智慧的時間大大縮短。
人腦感知事物的過程類似於模型。 從認識論的角度來看,在人腦的認知過程中,逐漸形成了乙個“世界模型”。 人們的主觀知識不一定從一開始就符合現實規律,而是通過不斷的實踐和不斷的比較,對模型得到的預期結果和實踐結果進行修正,以縮小模型與實踐的差異。 這種調整機制可以使人腦的世界模型更接近真相。
這就好比說,體育是人類對物質世界的認知和學習過程的體現。 以桌球為例,運動員一開始就可以掌握最簡單的推攻技巧,一般可以處理常規的來球,回球路線也符合他們的預期。 隨著來球速度和旋轉的變化,球員發現很難完全應對之前的接球技巧,回球時而入網,時而出網。
球員們逐漸意識到,他們可以通過調整球拍接球的強度和角度來應對不同的來襲情況。 隨著來球變得越來越多樣化,大腦變得越來越複雜,構建乙個“世界模型”,然後很容易處理場上的任何情況。 這就是人類“世界模型”認知和學習的過程。
“世界模型”也是心理學和工程學科學中的乙個重要概念。 例如,知名 AI 科學家 Yann Lecun 在談到機器智慧型時提到了世界模型的重要性:世界模型模組構成了架構中最複雜的部分,其作用包括估計有關世界狀態以及世界未來狀態的缺失資訊(圖 4)。
圖 4:自主智慧型的系統架構(從原始圖中簡化) 資料來源:Yann Lecun,“通往自主機器智慧型的道路”。
世界模型可以看作是世界相關方面的一種“模擬器”,它模擬了真實的物理世界,使機器和人類一樣,對世界有了全面而準確的理解,可以是世界的自然演化,也可以是特定行為產生的未來世界狀態。
回到SORA的討論,SORA帶給人們的震撼是,它似乎通過學習,在物理場景中不斷創造乙個“知識系統”,通過整合這些知識,產生高質量的內容,為人類帶來真實的視覺體驗。 當然,如果我們以“世界模型”的標準重新審視當前一代的結果,SORA距離真正意義上的“世界模型”還有很長的路要走。
一方面,SORA在處理複雜的場景和物理效果時仍然存在一些缺點。 例如,當場景涉及多個物體的互動或複雜的物理運動時,SORA可能會出錯或偏差。
另一方面,SORA主要依靠大量的訓練資料來學習**的生成規律,雖然有效,但在一定程度上限制了其在新場景下的泛化能力。
一旦AI與物理世界建立了連線,學會了“世界模型”,AI的推理和先進能力將實現突破,這將在許多應用場景和專業領域大有可為。 這樣的AI能夠執行複雜的任務和操作,甚至能夠完全模仿人類智慧型的行為,最終實現通用人工智慧。
引領科技革命。
為什麼這次又是美國?
我為矽谷公司PayPal建立了乙個資料科學平台,服務全球使用者,我在AI領域有20多年的研究和工作經驗。 在矽谷工作多年,我很清楚為什麼像 OpenAI 和 Sam Altman 這樣的人會出生在矽谷——是矽谷的“工程師文化”造就了他們。
OpenAI是美國矽谷重視工程師地位的文化土壤,有著很強的“工程師文化基因”,簡單來說就是工程師可以引領研發,擁有更大的自主權,擁有更大的創造力空間。
同時,OpenAI堅持產品驅動,沒有知識分子的明確高度,無論是Transformer還是Instruction Tuning等演算法模型,它都不會因為別人發明而迴避它,而是堅持“要麼接受,要麼放棄”的原則,繼續在自己的大模型中努力。 對於乙個企業來說,最大的價值創造永遠在使用者使用的產品中。
那麼,為什麼谷歌這樣的大公司很難在人工智慧領域的研發上超越OpenAI呢?
乙個關鍵因素是,這些大公司仍然按照原有的軟體開發方法開發新的AI技術,將任務拆分為不同的細分領域,多部門人員負責細分業務,這就是“養雞模式”。
以大模型訓練為核心的新興AI技術研發本質上是一項艱鉅的任務,這就要求核心領導層在技術、產品、業務層面具備端到端的願景和管理能力。 這更像是一種“育兒模式”,家長需要站在大局觀上,親自教導和訓練孩子,也就是說,孩子的教育不需要那麼多老師,核心人物也就只有少數。 根據 OpenAI 發布的 SORA 技術報告,SORA 創作團隊只有 13 人。
值得一提的是,OpenAI的CEO山姆·奧特曼(Sam Altman)個人能力非常強,不僅懂技術,還懂業務運營,甚至在去年年底發生舉世聞名的“公鬥”事件後,他都能迅速回到原來的位置,可見他的影響力之強。 正是有了這樣一位統控公司整體運營模式,避免過於受股東約束的領導者,OpenAI才能始終走在AI技術創新的最前沿。
就AI產業的發展而言,中國的人才不亞於美國,想要在AI競爭中快速佔據有利位置,不妨加快布局,充分尊重模型訓練本身的規律,用客觀全面的AI思維迎接新一輪的挑戰。
在我的新書《生成式人工智慧:AIGC的邏輯和應用》中,我詳細研究了AIGC的未來趨勢及其對個人的影響。
推薦閱讀]丁磊的《生成式人工智慧》闡述了人工智慧的未來,這是一本了解AIGC邏輯和應用的書。
本文為原創,**轉載請註明出處:中信書院。