製作人 |老虎嗅探技術集團。
作者 |王一鵬.
頁首 |OpenAI官網,作者:Sora
2月16日凌晨,在沒有任何預警和訊息披露的情況下,OpenAI突然發布了首款文盛模型:SORA,大幅重新整理了行業多項指標,重新定義了現階段AI文盛的技術極限,顛覆了該領域生成式AI的全球市場格局。
使用Transformer架構,SORA建立在DALL·E 3 和 GPT 型號可生成長達一分鐘的基於運動的多機位鏡頭**。與行業水平相比,SORA一次性將發電時間提高了15倍,直接超過了市場上所有短時間要求。
同時,Sora還具有世界模型的品質。 世界模型不是AI生成的必要元素,但它是該領域乙個相對高階的研究方向。 所謂世界模型,簡單來說,就是對真實的物理世界進行建模,讓機器能夠像人類一樣對世界有乙個全面而準確的理解。 與文字不同,它們大多描繪了主體在真實或想象的物理世界中的行為,因此世界模型將使AI生成更流暢、更合乎邏輯,降低模型的訓練成本,提高訓練效率。 同時,世界模型也為生成式人工智慧真正進入自動駕駛行業鋪平了道路。
這一次,SORA的世界模型已經能夠幫助它還原越野車在山路上的行駛情況,增加一種接近現實的傾斜感和顛簸感。
*來自OpenAI官網,為SORA生成**,部分截圖。
然而,Sora的世界模型仍然存在很多問題,例如餅乾被咬了卻沒有留下咬痕。 OpenAI非常實用,並在其官方網站上寫下了這些問題。
目前,SORA只對少數人開放進行封閉測試,據說是由視覺藝術家、設計師和電影製作人進行的。 同時,OpenAI仍在對模型的道德方面進行對抗性測試,例如錯誤資訊、仇恨內容、偏見內容,至於色情暴力,在輸入文字時會被拒絕。
對於SORA,我們今天必須注意一些明顯的推論:
OpenAI狠狠地砸了大家的肚子:全球AI**一代賽道的投資邏輯,甚至相關企業的生存邏輯,都在這一刻發生了變化。 下個季度,如果公司發電能力仍卡在4s,否則將導致直接停電;
AI迅速走過了文生問和聊天機械人的時代,在世代領域大踏步前進:最火的短劇和短劇將迎來AI的到來; 那些陷入瓶頸的領域,如自動駕駛和智慧城市,可能會迎來突破。
不要過度神話 SORA 或其他 AI 生成的工具,仍然有大量的技術、產品和業務問題等待解決; 但不要低估AI技術的速度,它被凍結在未來,看不清,正在向我們邁進。
*來自OpenAI官網,為SORA生成**,部分截圖。
索拉牛到底在哪裡?
就在幾年前,2024年1月27日,Tiger Sniff舉辦了一場關於AI生成的公開沙龍,會上有乙個有趣的互動:AI生成會以多快的速度迎來中途時刻?
選項在六個月、一年、1-2 年或更長時間內。
在現場,每個選項都有自己的風扇但 OpenAI 今天宣布了確切的答案:20 天。
AI生成的真正難點在文生**,而不是土生**,生**。 奧秘在於,溫生需要按照指令從文字中解碼時空邏輯,同時確保在這種邏輯下,畫面中所有物體的運動和變化都符合要求,符合現實世界的規律。 而學生**、學生**的圖片,都有“按貓畫老虎”的意思,所以比較簡單。 這也是為什麼,市面上的AI一代總是停留在2-4s的範圍內——一旦超過這個時間,**的可控性和質量就會大打折扣。
很多**世代,更像是乙個帶有動態背景的固定角色,畫面非常單調,幾乎沒有動作,這也是因為從文字到**在時空邏輯推理的侷限性。 同時,很多企業更加關注所謂AI生成的產品化和商業化,重點推出一些基於模板並快速用於營銷生成的工具,這些工具在世界模型層面是缺乏的。
OpenAI 的 SORA 是文盛**主要難點的突破性一步,增加了持續時間,並建立了乙個世界模型。 但這並不意味著Sora沒有問題,它可能是假的,目前最矛盾的問題是它是憑空產生的:三隻小狗在嬉戲,第四只小狗和第五只小狗憑空出現; 乙個男人撿起一大塊塑料,一把塑料椅子憑空出現。
另乙個主要問題是SORA的世界模型仍然不足。 例如,乙個男人倒著在跑步機上跑步,他的跑步動作不連貫和自然。 或者乙個籃球擊中籃筐並按照物理定律彈跳,但下一秒它就撞穿了籃筐並發生了。 一群考古學家在沙漠中挖出一把塑料椅子,煞費苦心地清理灰塵,而椅子本身卻飄了起來,奇怪地變形了。
男子倒立跑步機,**來自OpenAI官網,為SORA生成**,部分截圖。
世界模型一直處於乙個相當狹窄的研究領域,這個概念很難研究,過於雄心勃勃,而且相當學術,所以一次參與者很少。
值得一提的是,Meta 首席 AI 科學家、圖靈獎獲得者 Yann Lecun 是世界模型概念的主要提出者,儘管他面臨著落後於 Meta 生成式 AI 的巨大壓力。
楊麗坤長期以來一直嘲笑生成式人工智慧的幻覺和反智行為,認為人工智慧只有真正理解物理世界,才能有真正的價值,斷言GPT模型五年都存不下去。 2023 年 6 月,他基於自己的想法推出了 i-JEPA 模型,用真實世界的背景知識補充缺失的影象碎片,但這仍然是乙個技術研究概念。
2023 年 12 月,AI 世代的領導者之一 Runway 正式宣布結束通用世界模型,並發布了一系列備受矚目的招募,宣布將使用生成式 AI 模擬整個世界,以應對 Pika 的方法。
這是乙個訊號,或許在楊麗坤看來,情況一度朝著好的方向發展:他的研究方向得到了認可,拖累Meta的謠言弄巧成拙。
但這種幸福並沒有持續三個月,啪,消失了。
空為誰的生活平反了?
在SORA發布之前,有很多煙霧彈更新,比如:OpenAI組建了乙個新的團隊來研究兒童安全,OpenAI準備推出GPT-45-turbo,但真正的“殺手級更新”隱藏得很好,這也導致像Pika,Runway這樣的明星創業公司措手不及。 更重要的是,OpenAI 的聯合創始人 Andrej Karpathy 最初是 Pika 的投資者之一。
原始碼資本副總裁李璐林在Tiger Sniff 主辦的沙龍上表示,空頭**是目前硬體基礎設施大眾市場滲透率最高的形態。
有資料顯示,目前國內短途使用者規模超過10億,有資料稱抖音2022年的年收入將超過700億美元,快手也將超過900億元。 然而,面對這樣的市場,在SORA發布之前,沒有乙個最好的發電工具達到商業或工業生產的水平。
有專家告訴Tiger Sniff,目前大型廠商對AI**生成的態度相當曖昧。 根本問題在於,目前人工**生成效果更好,成本也可接受,而AI生成並沒有大家之前想象的那麼具有顛覆性,所以整體策略偏向於“防禦”而不是“進攻”。
這一切不僅讓 Pika 和 Runway 等初創公司陷入癱瘓,也讓他們認為機會已經到來,前景已經足夠好; 這也讓這些公司及其投資者低估了第一代賽道的競爭激烈程度,認為視窗期還夠長。
在這種癱瘓中,所有人工智慧生成的公司都陷入了同質化的競爭:過分關注更高的影象質量、更高的成功率和更低的成本,而不是更大的持續時間和世界模型。
Pika、Runway、Meta,一般來說,在4秒或更短的範圍內,可以達到極其漂亮的影象質量,但物體本身的運動卻極低且失真。
國內的位元組跳動是替代方案之一。 在**領域,Byte的嗅覺更加敏銳。 2023 年 11 月,位元組跳動發布了 PixelDance,它為下乙個 **片段的第一幀到上乙個片段的最後一幀提供了指導,並在時長上取得了突破,但截至發稿時,仍未開放使用者測試。
Pixeldance官網**案例。
對資本市場的下乙個影響很可能是隱藏的。 鼠兔的創始團隊被貼上了“雪霸”和“完美”的標籤,並於2023年11月底完成了5500萬美元的融資。 2023年5月的1號跑道41億美元的融資,但專注於世界模式的團隊仍在組建中,下一次融資的速度也值得懷疑。
如果PIKA和Runway還有布局價值,那麼對於國內AI企業出海來說,形式會變得更加困難。 換言之,從移動時代遷移到現在的基於場景和產品能力快速推出外掛程式的商業模式,在海外AI市場正在失敗
因為像 OpenAI 這樣的公司在市場上屹立不倒。 他們幾乎複製了甲骨文過去的市場領導地位,一步乙個腳印,一步乙個腳印,並且比所有競爭對手都降維。 對於所有做模式、抓住趨勢的機會主義創始人來說,如果巨頭們想殺了你,恐怕只會在一夜之間發生。
正在改變並想要改變世界的人都在Tiger Sniff app上