正文|數智一線趙艷秋.春節開學後的一周,國內人工智慧圈和SORA技術相關各大廠商對OpenAI宣布SORA的反應,與**上的熱情形成了鮮明的對比。編輯|牛輝.
OpenAI越來越閉源化,幾乎沒有具體資訊,中國仍處於開盲盒階段。 不得不承認,SORA是演算法組合、資料選擇、訓練策略、算力優化等能力的結合,雖然這些技術可能不是OpenAI獨創的,但OpenAI對它們的深刻洞察,以及精湛的系統構思和設計能力,做出了“顛覆性”的突破,而不是簡單的蠻力。
面對如此大規模的系統專案,國內人工智慧圈在各個方面仍需補充。
01 各大廠商的反應 本週,位元組、阿里巴巴、騰訊、華為、浪潮等公司均未發聲。 一些相關廠商的研發團隊正在“開箱”,資訊絕對保密,“SORA將影響公司今年的產品研發計畫”。 ”
值得注意的是,大型廠商中高層對SORA的積極關注和洞察程度,一般不如去年ChatGPT上線後那麼迫切和深入。
在各大工廠的內網上,核心研發團隊之外的“吃瓜群眾”零星發帖討論,“別說討論熱度了”,就連國內各大人工智慧工廠的內網都是“零貼”。 這種情況與**上的熱搜新聞,甚至對中美差距拉大的哀嚎截然不同。
然而,一些較快的舉動也可以讓人瞥見該行業的一些緊迫感。 2月17日,SORA發布後的第二天,Alimo社群發起了對SORA技術路徑的分析,文章非常火爆; 2月18日,學校推出SORA口譯系列課程; 春節剛過,浪潮相關業務已經向SORA提交了分析報告。 許多大型工廠都安排了與其業務線相關的研究和報告業務,其中一些工廠將在本週進行SORA分析和研究。
由於OpenAI透露的資訊很少,不像ChatGPT上線後對技術的一些具體分析,SORA的分析有更多的猜測成分,而具體依據較少。
從各大工廠員工的內部討論中,大家都聚焦在幾個方向:SORA的技術機制,包括SORA能否成為真實世界的模擬器; 計算能力; 商業方向和時機。 目前,關於技術機制的“謎團”還很多; 關於算力消耗的猜測也令人困惑; 在SORA商業時間方面,**從乙個月到半年不等,一般認為速度會很快。
從 OpenAI 的行動來看,包括 SORA、ChatGPT、Dalle 和一直強調的代理,OpenAI 可能會在今年下半年發布 GPT5,這將是真實代理的第乙個版本。 以這個代理為例,以後如果你想做乙個應用,GPT5可以自動生成**,打包部署,包括應用,配置網域名稱,最後生成乙個可訪問的APP。 這些猜測還表明,每個員工的未來工作正在被重塑。
雖然在大廠論壇上對技術差距的哀嚎不多,但員工們在交流中卻有抱怨和無奈。 不過,也有人認為SORA對國產AI超級有利,因為在全球空頭市場中,Byte、騰訊、快手佔據了前三名,大家都知道SORA原理是基於國內現有的GPU算力,推測“如果快一年”, 中國將有類似產品推出。
02 OpenAI不依賴蠻力,業界紛紛關注SORA的驚人效果,這要歸功於新的演算法組合和訓練策略。 不過,與ChatGPT類似,單純在具體演算法上,並不是OpenAI的原創。
SORA在演算法組織和資料訓練策略上投入了大量精力,以充分挖掘演算法和資料的潛力,並學習更深入的知識。 雲之盛董事長梁佳恩表示,OpenAI通過架構設計和訓練策略,而不是簡單的演算法改進,持續重新整理行業認知。 這反映了OpenAI對演算法和資料潛力的深刻洞察,以及其獨創的系統構思和設計能力,而不是簡單地用“蠻力”來做出這樣的“顛覆性”突破。
在SORA正式宣布後,紐約大學的謝森寧對其技術進行了推測。 由於謝賽寧與SORA團隊關係密切,他的猜測影響廣泛,尤其是他猜測“SORA引數可能為30億”。
有些人認為 30 億引數有一定的道理。 據一位資深人士分析,SORA產生的最佳效果是驚人的,但存在很多細節問題,應該先是OpenAI大顯身手,OpenAI將進一步擴充套件模型; 另一位資深人士從算力角度直觀分析,**是立體的,單元處理所需的算力非常大,如果SORA引數太大,算力就會不足。
不過,也有業內人士認為“30多億”。
30億個引數,我認為這是誤導性的。 一位簡短的人工智慧資深人士告訴 Digital Intelligence Frontline,“SORA 依靠 OpenAI 最強大的語言模型來生成字幕(字幕、字幕)。 在Sora提供的技術報告中,他們簡要描述了他們如何設計自動化技術,生成文字描述,或將簡短的使用者提示轉換為較長的詳細描述,以提高整體質量。
而從OpenAI摸索人工智慧邊界的風格來看,也有人認為30億太小了。 “這與它一直以來的做法不符,它們都是'奇蹟'。 中科神智CTO宋健對數智一線表示,其實理論上已經指出了這條路,很多企業也嘗試過。
一位Wave訊息人士表示,SORA的突破再次證明AI是一種系統工程,純粹的靜態推測引數可能沒有意義。
在生成方面,過去大家的難點是很難保持**的連貫性或一致性,因為有很多事情違背了常理,比如光影錯,空間變形,所以業界想不通。
根據公開的資訊,OpenAI 最終是否會採用更大規模的引數尚不清楚,但我懷疑他們肯定會以自己的風格嘗試。 梁佳恩表示,此前,OpenAI從GPT2做GPT3的時候,就堅信,只要演算法架構合理,通過超大規模的無監督學習,就有可能通過小樣本甚至零樣本學習擊敗監督學習,這是OpenAI對規模效應的堅定信念。 “這一次,SORA通過演算法組合和資料設計,學到了更多符合物理定律的'知識',這符合OpenAI多年來的一貫風格。 ”
然而,SORA還不能被稱為物理世界的適當模擬器。 在它生成的**中,存在大量錯誤。 OpenAI本身也在其技術報告中提出,這是乙個很有前途的方向。
人們對SORA有不同的需求。 “如果你現在正在做乙個數字孿生,你不妨直接用物理引擎作為底層來構建它,就像NVIDIA的Omniverse一樣,它並不完全是物理的,但它已經非常準確了。 宋健說,“但對於視覺藝術來說,是關於視覺感性的,反物理也沒關係,只要在視覺上給大家足夠好的衝擊力就行了。 ”
03 算力猜想 “現在大家對算力的猜測非常混亂。 一位英偉達訊息人士告訴Digital Intelligence Frontline。 由於OpenAI此次發布的資訊很少,業界很難評估。
視覺模型或多模態模型在計算能力方面與大型語言模型不同。 一位人工智慧算力資深人士告訴數智一線,儘管SORA可能只有幾十億個引數,但其算力估計與數百億或數千億個大型語言模型相似。
他進一步分析說,他可以參考文生圖模型Stable Diffusion,只有10億個左右的引數,但用幾十萬臺伺服器訓練算力卻花了將近乙個月的時間。 他估計,SORA的訓練算力可能至少比前者大乙個數量級,也就是上百臺伺服器,OpenAI肯定會更進一步,把SORA模型做大。
另一方面,該模型的推理算力也遠大於大型語言,有資料表明,穩定擴散的推理算力消耗與LLAMA 70B(700億)引數模型相似。 換句話說,就推理算力而言,乙個10億的文生圖模型和乙個1000億的大語言模型差不多。 第乙個生成模型SORA的推理計算能力肯定比第乙個生成模型大得多。
文字是一維的,三維的,單位的計算能力更強。 一位人工智慧專家告訴數字智慧型前線,他認為它需要幾千卡路里大才有機會。
由於SORA推動的文盛**的發展,今年國內整體算力仍將非常緊張。 據某計算基礎設施公司人士介紹,在人工智慧算力方面,北美幾家巨頭的算力現在是中國總算力的十倍以上,甚至更多。
然而,在一些地方,國內的算力已經閒置。 這其中就包括幾種情況,比如一些公司在去年上半年開始訓練大模型,放棄了大模型的開發,轉而使用開源模型; 去年,大型語言模型的應用遇到了挑戰,大量的推理應用尚未落地,這將導致一些企業出現數十或數百台閒置機器的情況。
宋健也發現了算力閒置的問題。 他觀察到,特別是從2023年11月左右開始,算力的租賃變得更加容易,可能是原來的2 3,甚至1 2。