北京時間2月16日凌晨,OpenAI發布了首款文盛**型號SORA。 該模型可以根據使用者的輸入文字提示描述生成一段 60 秒的內容。
近3天來,OpenAI和Sora佔據了AI行業話題的中心,無論是AI工具的使用者,還是馬斯克、楊麗坤、周弘毅等科技巨頭,都紛紛表達了自己的觀點。 馬斯克說“人類願意賭輸”; 周弘毅預測,“AGI的實現將從10年縮短到1年”。
OpenAI 首席執行官 SAM Altman 在社交平台 X 上積極與網友互動,也藉此機會開始招聘:“OpenAI 是我在乙個地方遇到的最有才華、最友善的一群人,致力於解決最困難、最有趣和最重要的問題,所有關鍵資源都到位,非常專注於構建 AGI(通用人工智慧), 你也許應該考慮加入我們。 ”
業內人士怎麼看?
2023年,文盛圖和AI對話如火如荼,進展速度肉眼可見,但文盛**就像是AI慢慢開發的“金礦”,Runway、PIKA等創業公司紛紛浮出水面。 直到 2024 年初,OpenAI 發布了 SORA,並展示了 SORA 生成的多個 **,碾壓了行業目前平均“4S”的 ** 代長,將生成質量提公升到更高的水平。
在官方演示**中,Sora 可以直接輸出多角色、多場景、多鏡頭移動的圖片。 例如,乙個提示是這樣的:鏡頭走過東京繁華的街道,跟隨幾個人享受雪景和購物。 在Sora生成的**中,鏡頭從天空中的雪花中俯衝下來,跟隨一對手牽著手穿過日式街道的情侶。
另乙個例子是對東京街頭一位時髦、時尚的女士的描述,充滿了溫暖的霓虹燈和充滿活力的城市標誌。
在Sora生成的**中,女士穿著黑色皮衣和紅色裙子走在霓虹燈街道上,不僅主體連貫穩定,而且有多重鏡頭,包括從街景到女士面部表情的特寫,以及霓虹燈反射在濕漉漉的街道地板上的光影效果。
*發布後,網友們在全世界的社交**上用無數種語言感嘆:現實已不復存在。 行業大佬們從不同角度分析和評估SORA的。
馬斯克在社交平台X上留言,如“人類甘願賭輸”、“人類會借助AI創造優秀作品”; 人工智慧行業參與者之一Runway的聯合創始人兼首席執行官克里斯托瓦爾·瓦倫蘇埃拉(Cristobal Valenzuela)表示,過去需要一年的進步已經變成了幾個月的問題,然後是幾天和幾個小時。
據**報道,出門問問創始人在朋友圈感嘆道:“LLM ChatGPT是虛擬思維世界的模擬器,而基於LLM的**生成模型SORA是物理世界的模擬器,物理世界和虛擬世界都已經建模和模擬了,什麼是現實? ”
此外,巨集博股份副總裁、英博數碼CEO周薇薇也分析了朋友圈裡最讓她感動的**,並稱讚“從藝術的角度來看,空顯然知道如何區分和合理搭配各種蒙太奇,意識流.......”從技術角度來看,這確實是......如此快速地完成穩定而複雜的 RTX”
她還直言不諱地表示,在AI時代,一步快,一步快,先發優勢壁壘遠超網際網絡時代,“趕超還是彎道超車? 過去很多驕傲的綜合人才在強AI面前顯得那麼斑駁無力,與其當場嘆息,不如向遊戲低頭,至少做乙個精通工具的合格工具人。 ”
360集團創始人周弘毅在Sora發布後迅速髮長微博和**,預測Sora可能會給廣告行業、電影預告片、短**行業帶來巨大的顛覆,但可能不會那麼快擊敗TikTok,更有可能成為TikTok的創意工具。
他認為,大型語言模型的力量在於它們能夠充分理解世界的知識。 以前,所有的文盛圖和文生**都是在二維平面上的圖形元素上操作的,不應用物理定律。
這一次,很多人從技術角度和產品體驗來分析SORA時,強調它可以輸出60秒**,保持多個鏡頭的一致性,模擬自然世界和物理定律,其實比較膚淺。 最重要的是,Sora的技術思維完全不同。 在SORA製作的**中,它可以像人類一樣理解坦克具有巨大的衝擊力,坦克可以撞車而不撞車。”
周弘毅認為,這也代表了未來的方向。 基於對人類語言的理解、人類知識和世界模型以及許多其他技術,我們可以創造各個領域的超級工具。 此外,SORA的出現可能意味著AGI的實施時間將從10年縮短到1年。
總部位於三藩市的早期投資人扎克·庫科夫(Zak Kukoff)**,乙個不到五人的團隊,將利用文生模式和非工會勞工製作一部五年內票房收入超過5000萬美元的電影。 很多國內AI創作者也在想象,一部由AI製作的電影會盡快到來。
OpenAI詳細講解技術突破點
SORA的出現,讓文字變成了一場盛宴,除了震撼之外,相關技術也備受關注。
英偉達(Nvidia)高階科學家吉姆·範(Jim Fan)在X上表示,他看到了一些強烈的反對意見:“Sora不是在學習物理,它只是在2D中操縱畫素。 Jim Fan說他不同意這種還原論的觀點。
然後,他發帖說,SORA是乙個資料驅動的物理引擎,可以模擬許多世界,包括真實的和幻想的。 “模擬器通過一些去噪和梯度數學來學習複雜的渲染、'直觀'的物理、長期推理和語義基礎知識。 ”
紐約大學助理教授謝森寧發表了多條分析SORA的推文,推測SORA是建立在擴散變壓器模型之上的,整個SORA模型可能有30億個引數。
當大家都在分析SORA在現有資訊中的技術成就時,OpenAI卻一反常態,公布了相關技術
我們探索了使用**資料來大規模訓練生成模型。 具體來說,我們共同訓練了乙個擴散模型,其中文字作為**的輸入,以及不同持續時間、解像度和縱橫比的影象。 我們引入了一種 transformer 架構,該架構對時空序列包和影象的潛在編碼進行操作。 我們最先進的模型 Sora 已經能夠產生長達一分鐘的高保真度,這標誌著生成領域的重大突破。
我們的研究結果表明,通過擴大生成模型的規模,我們有望構建可以模擬物理世界的通用模擬器,這無疑是一條很有前途的發展道路。 ”
本技術報告主要關注兩個方面:第一,它詳細介紹了一種將各種型別的視覺資料轉換為統一表示的方法,從而實現生成模型的大規模訓練; 其次,對SORA的能力及其侷限性進行了深入的定性評估。
需要注意的是,本報告未涵蓋該模型的具體技術細節。
此外,OpenAI還公開承認了SORA的一些缺陷:可能難以呈現複雜的物理變化,無法理解因果關係,以及令人困惑的空間細節。
例如,在演示**中,“五隻灰狼幼崽在偏僻的碎石路上嬉戲追逐”,狼群數量會發生變化,有些會憑空出現或消失。
SORA目前被描述為研究的早期階段,不打算供公眾使用,因為該公司擔心深度偽造的濫用**。 現在只有一部分視覺藝術家、設計師和電影製作人有內部試用機會。 許多業內人士,包括一些影視行業從業者,都表達了對全面開放之日的期待。
合成自OpenAI、21世紀經濟報道社、X平台等。