長達一年的“百模大戰”仍未結束,兩大海外AI巨頭給國內科技廠商帶來了麻煩。
春節假期結束時,谷歌和OpenAI毫無徵兆地發布了他們新的AI“核武器”。
谷歌新一代多模態大模型雙子座1效能提公升到百萬級的5 Pro,秒殺徹底擊殺OpenAI的GPT-4 Turbo,暫時是表面上最強的。
後者首款文盛**機型SORA基於視覺美學的驚人表現,更是讓人印象深刻,並迅速成為全球科技圈的熱點。
在保真度、長度、穩定性、一致性、解像度、文字理解等生成方面,SORA已經超越了Gen-2、SVD-XT、PIKA等主流產品,取得了目前最好的成績。
去年,阿里巴巴、科大訊飛等國內網際網絡公司紛紛推出自主研發的大模型,在智慧型變革時代爭搶門票; 華為、小公尺、OPPO、vivo等手機廠商也紛紛布局大機型,希望新技術能為高峰市場帶來新的活力; 許多初創公司也進入了賽道,試圖在彎道中輕裝上陣並超車。
然而,物理意義上的差距,讓得國產大型模型產品在效能和生態上與ChatGPT仍有較大差距。 而現在,第乙個生成模型SORA的誕生,再次掀起後續浪潮也就不足為奇了。
然而,顛覆性影響往往來自顛覆性的想法。 從目前的節點來看,國內企業在AI大模型領域與全球前端的差距有多大? 有什麼區別? 哪些種子選手有可能脫穎而出?
關於Sora的出現,馬斯克的評論“GG Humans(人類認輸)”可以算是主流觀點了。
此前,雖然已經有大量的文盛**技術,但技術上的融合還沒有實現,主要的實現路徑是通過各種手段讓單幀的**“動起來”,類似於定格動畫。 從使用者實際需求來看,每一幀之間的連貫性和自然性是價值的關鍵,即每一幀語義資訊的無縫銜接才是核心。
換句話說,像SORA這樣的產品,提供符合需求的技術解決方案,遠比從技術可以實現什麼的角度來創造乙個產品要好得多。
根據OpenAI官網的介紹,SORA與之前的文生**想法不同,即讓模型**一次多幀,並確保**主體保持不變。 這就是獨創性的用武之地——在**框架上取得突破,提高**一代的使用上限。
360創始人周弘毅也對此給予了高度評價,認為SORA的誕生意味著AGI(通用人工智慧)的實現可能從十年縮短到一兩年。
作為SORA的前身,AI Wensheng**創業公司Runway的聯合創始人兼CEO克里斯托瓦爾·瓦倫蘇埃拉(Cristobal Valenzuela)感嘆,過去需要一年的時間才能取得的進步,變成了幾個月才能實現,然後是幾天和幾個小時。
在Sora發布之前,還有很多煙霧彈被釋放。 例如,OpenAI 已經組建了乙個新的團隊來研究兒童安全,或者正在準備推出 GPT-45-turbo,但真正的“殺手級更新”隱藏得很好。 這也讓PIKA和Runway等明星創業公司在面對SORA時措手不及。
事實上,國內外大型廠商對AI一代的態度一直模稜兩可。 根本問題是目前的勞動力質量更好,效果更好,成本可以接受; AI生成並不像大家之前想象的那麼具有顛覆性,所以整體策略更多的是防禦而不是進攻。
值得一提的是,國內的位元組跳動及其嗅覺更加敏銳。 早在去年,在文心一言的發布會上,AI文生的功能就已經發布,AI會根據文字內容自動找到合適的**素材,生成**並自動發布,這就是文心一言AIGC的TTV(Emotional Analysis of Text Content)功能。
位元組跳動在去年11月發布了pixeldance,可以通過上乙個clip的最後一幀為下乙個**clip頭幀提供指導,並且在**時長上取得了突破,但目前還沒有開放使用者測試,所以具體效果還不得而知。
如果我們看一下GPT的發展路徑,所有做AI生成甚至大模型的公司都會面臨新一輪的危機。 正如周弘毅所說,雖然國產大模型的開發水平表面上接近GPT-35,但實際上有 40 和 1 之間還有一年半的差距。 Openal 應該掌握著一些秘密**,無論是 GPT-5 還是通過機器學習自動生成內容。
但危險與機遇並存。 OpenAI已經證明,用大模型的思路做到最好是可行的,文盛可以成為全球新一輪AIGC大賽的焦點,也為直播電商和短平台上的內容創作帶來了更高的天花板。 其他網際網絡公司和內容平台需要做的,就是證明自己也可以用大模型做起來。
從技術角度來看,SORA是乙個多模態混合模型,它由乙個大型語言模型和乙個文字和影象生成器拼接在一起。 這也意味著多模態模型迭代的步伐正在加快,2024年第一波AI浪潮開始也就不足為奇了。
自2022年底以來,ChatGPT橫空出世,其強大的影響力如野火般蔓延到國內科技圈。 阿里巴巴、騰訊等各大網際網絡廠商,以及以公尺奧夫為代表的智慧型硬體公司,似乎都嗅到了新時代的氣息,紛紛宣布推出自己的大機型,打算在這股AI浪潮中占有一席之地。
同時,文盛圖、文盛**等多式聯運AIGC產品也在有序推進。 從現實的角度來看,人工智慧生物文字和傳記的應用早已興起,相關技術也在日新月異。 相比之下,艾文生**是乙個很久沒有被占領的位置,難度和價值同樣巨大。
公開資料顯示,包括位元組跳動、阿里巴巴、海康威視、萬興科技、Tors、當虹科技在內的科技公司都在積極部署文盛**,但與Sora相比差距較大。
簡單來說,之前的AI文盛**工具只停留在“模擬現實”的層面,SORA已經躍公升到了“構建現實”的新高度。 兩者的根本區別在於,前者只是對現實世界的膚淺模仿,難以深入捕捉現實世界的物理規律和動態變化; 另一方面,後者在虛擬世界中重建了與現實世界平行的存在。
Sora不僅學習了畫素和影象的呈現,還對現實世界的“物理定律”有了更深入的了解。 例如,在現實世界中,我們每咬一口食物,都會在食物上留下咬痕,這是一種遵循物理規則的自然現象。 在SORA生成的**中,這個細節也能精準再現,讓“咬下去有痕跡”,從而在虛擬世界中完美再現現實世界的真實感。 而這是其他文盛**產品做不到的。
例如,雖然可以基於輸入文字生成**,但在處理複雜的場景和細節描繪方面仍然存在不足。 而AI文生**也更像是從已有的素材庫中尋找乙個更接近文字含義的**進行拼接,單靠AI很難生成新的**內容。
今年年初,位元組跳動發布了一款超高清文盛**型號magicvideo-v2。 據悉,該模型在高畫質、潤滑、連貫、文字語義恢復等方面,輸出均高於目前主流的文盛**模型Gen-2、Stable Video Diffusion、Pika 10 等。
抖音的張楠於2月初辭去CEO職務,專注於放映業務。 這意味著抖音將加強AI原始圖片和**產品的布局,其中國學生**自然是重中之重。
然而,在張楠的規劃中,AI本應具備的更高保真生成效果、更清晰的生成畫面、更流暢、更自然的邏輯理解能力,也被Sora打敗了。
相較於網際網絡巨頭的低調表現,近期一些上市公司積極發聲,披露了自己在生成模型領域的業務。
據不完全統計,近三個月來,萬興科技、博匯科技、易電安俠、數碼視訊、漢王科技、當虹科技、東方國信、申思電子、銀賽集團、Tors、國邁文化、嘉都科技等10余家A股上市公司在互動平台披露了相關代機領域的業務。
但不可否認的是,真正達到前沿水平的企業寥寥無幾,很多企業只是隨波逐流,缺乏真正的技術儲備和研發能力。
東方國信直言不諱地表示,他們在AI生成領域沒有成熟的技術儲備; 申思電子回應稱,公司正在對文盛圖、圖生文、**盛文、文盛等多模態資料相互跳躍的收斂性進行深入研究,換句話說,他們在這一領域的技術仍處於探索階段。
AI文盛的顛覆性,在實際應用層面可見一斑。 **生成可以幫助改善企業的商業需求,例如幫助降低廣告主成本、方便製作**等。 以位元組跳動為例,其廣告主廣告總成本的一到二就成了第一生產成本,從去年開始,位元組就開始利用相關產品幫助廣告主減少這部分投資。
與上一波ChatGPT類似,雖然國內企業在推出類似AI文生**產品方面難免落後一步,但也是感受索拉渡河的機會。
從全球市場來看,AI依然引領著整個科技業務的方向,多模態成為主流。 從大型語言模型到多模態再到通用人工智慧的路徑逐漸清晰,分歧點在於節奏的判斷。
此前,OpenAI 花了大約半年的時間測試大型語言模型 GPT-4。 如果測試SORA花費的時間大致相同,那麼這個強大的生成工具可能會在今年8月推出。 而這半年,正是其他企業積蓄實力的視窗期。
畢竟ChatGPT已經存在一年多了,但仍有大量使用者沒有使用過聊天機械人相關產品,這也為其他商家提供了迎頭趕上的機會。
目前,國內企業面臨的最大問題是,科大訊飛等一線AI公司的股價因各種原因被打到地板價,而英偉達、Microsoft等國外頂級公司的股價再創新高,OpenAI的估值仍在攀公升。 這也意味著,國內外人工智慧企業在資金、人才、技術、市場吸引力等方面,存在著天然的優勢和劣勢。
周弘毅認為,科技的終極競爭是人才密度和深度積累。 事實上,SORA 使用 Transformer+Diffusion。 從模型架構的角度來看,如果以 Transformer 為基準,那麼文盛**還是比較優先的領先科技公司,但如果生成式**架構還是圍繞著擴散展開,初創企業的機會就更大了。
然而,沒有放之四海而皆準的技術,只有螺旋式的工業繁榮。
雖然SORA一次可以生成幾十秒到一分鐘的**,但是在應用階段,如果產品沒有提供足夠的微操作空間,保證使用者能夠將其整合到自己的工作流程中,那麼很有可能只能鼓掌。
幸運的是,技術的傳播才剛剛開始,沒有一家公司會因為新技術的出現而“突然死亡”。 OpenAI更像是乙個先鋒,它的優勢在於鋪平道路,應用的普及仍然需要生態系統的力量。
這就像文盛文模型上的模組化組合,會不會有手機、智慧型音箱等專有智慧型裝置? 讓更多的使用者在裝置端使用模型,構建開源+小引數模型+移動端的思路,對現有產品進行創新。 這是國內廠商擅長的,但也是未來內捲的位置。
從單點突破的角度來看,SORA是乙個里程碑; 然而,從商業需求和混合切割工作流程效率的提公升來看,SORA本身的價值和落地效果仍有待研究。
僅僅依靠AI生成的一分鐘**成為下乙個董玉輝和李佳琪是不現實的,更別說拍長篇**或者電影或者電視劇集了,哪怕是短篇**,是一遍又一遍地修改提示詞更有效率,還是在**剪輯軟體中根據創作者的想法調整素材更快? 顯然,期待SORA變強,還不如期待AI模組盡快加入到編輯軟體中,這樣才能有效提高工作效率。
即使SORA最終全面開放註冊,普通使用者也很難做出像現在這樣**的演示案例。 因此,最終,各大廠商的決定性點是如何普及多模態應用,如何在工具中加入AI功能,更直接地優化工作流程。
新興技術是通用的,而不是任何一家公司獨有的。 對於國內企業來說,多模態的探索不妨參考GPT的開發與落地,在特定垂直領域的應用層面找到自己的優勢,並以此為方向實現快速發展。
只不過在這個過程中,還是看重人才的密度,落地的程度,犯錯的次數。