** 博胡芬
作者 |陳平安.
Open AI 再次滑動。
2023年初,Open AI引爆了全球科技圈。
因為它發布了乙個全新的聊天機械人模型——ChatGPT。 與過去那些簡單的聊天機械人相比,ChatGPT不僅可以回答人類的問題,承認答案中的錯誤,拒絕回答不恰當的問題,還可以寫詩、程式設計、寫作**等等。
就連馬斯克都忍不住感嘆:“ChatGPT好得嚇人,我們離危險強大的人工智慧也不遠了。 推出僅兩個月後,ChatGPT 的月活躍使用者就達到了 1 億,Microsoft的母公司 OpenAI 帶來了 100 億美元的收入。
2024年初,類似的故事再次上演。
2月16日凌晨,OpenAI在AI生成領域投下了一顆“王彈”**,宣布推出全新生成式AI模型“SORA”。
在OpenAI官網分享的demo**中,SORA可以直接輸出多角色、多場景、攝像機運動的素材。 這與一年前AI生成的**有著天壤之別,它的**長度“碾壓”了同行。
據了解,通過文字指令,SORA可以直接輸出長達60秒,精細化程度遠遠超出大多數人的想象。
這意味著,繼文字和影象之後,OpenAI 已將其先進的 AI 技術擴充套件到最佳領域。
馬斯克也再次評論了OpenAI模型:“人工智慧增強的人類將在未來幾年創造出最好的作品。 ”
一方面,有技術上的突破。
SORA能夠產生長達1分鐘的超長時間**,遠遠超過Runway-Gen2的18秒和Pika的3秒。
更重要的是,相較於之前AI明顯的“AI感”,SORA的製作在真實感和畫面細化方面,將整個AI**行業提公升到了乙個新的台階。
從官網**、人物臉上的黑痣、地面上水面反射的霓虹燈影等來看,其細節的精細度幾乎已經實現。 換句話說,SORA的作品質量,無論是在高畫質還是修復方面,都是非凡的。
另一方面,同樣有趣的是 Sora 理解長文字的能力。 OpenAI在其官方部落格中寫道:“Sora不僅了解使用者的需求,而且知道這些東西在現實世界中是如何存在的。 ”
那是什麼意思? 只需輸入一段文字,Sora 就會自動生成長達一分鐘的高畫質**。 令人驚奇的是,Sora不僅能準確把握使用者文字中的複雜含義,還能將不同的元素分離出來,轉化為具有特定創作思路的**內容,看起來就像是專業導演、攝像師和剪輯師的作品。
例如,在 Sora 的主題“乙個充滿五顏六色的魚類和海洋生物的珊瑚礁世界,用紙藝精心構建”中,Sora 通過攝像機角度和拍攝時機成功地推進了故事。 實際上,它並沒有專門指示它執行多個攝像機過渡,但它會自動執行。
例如,據業內人士透露,SORA生成的**,即使是頭部動畫製作公司也需要幾天時間才能完成,而SORA只需要幾分鐘即可完成。
國盛認為,與之前其他文盛模式相比,SORA已經跨界到實用的生產力工具,1分鐘的長度有望在短片領域大規模應用,擴充套件能力也有望產生長,這可能會帶來內容創作的新一輪產業革命。
當然,Sora並不完美。 OpenAI官網指出,複雜場景的物理場可能難以準確模擬,可能無法理解因果關係,混淆了提示的空間細節。
以這次發布的《與中國龍共慶農曆新年》小樣為例,空無法準確生成**畫面中的中文,被網友調侃“怪中文太難了? “和老人的生日蛋糕蠟燭,但蠟燭前的火焰等等都沒有變化。
然而,OpenAI的團隊卻讓AI從最初的模糊不清、難以分辨的影象發展到現在足以成長壯大的階段,可見它的發展是可怕的。
b站的一位網友評論道:
在 Sora 出來之前,我還在心裡給 GPT5 打個問號,能提公升多少,OpenAI 能繼續領先嗎?但現在真的信服了,真的比其他工廠好不止一點點,一出來就是降維打擊,SORA 也是乙個轉型架構。這不就是GPT5的一部分嗎,之前網際網絡說GPT5看完所有網際網絡**都不相信,現在我就相信了。
SORA最直接的影響無疑是對行業的影響。 作為**生成工具,SORA可以僅用文字生成60秒的精細**,大大降低了製作門檻和成本,特別是對於時效性強的熱點內容。
然而,SORA更深層次的意義在於,它也意味著對AI的競爭再次公升級。
2023年,ChatGPT的發布將引領全球進入AI熱潮,僅中國企業就發布了130多款大型機型。 一開始,大家的目標都是走向自主研發的大模型——有錢的公司開發了基座模型,而創業公司則轉向開發行業模型和垂直模型,這些模型在開源模型的基礎上,用特定的資料集進行微調。
但事實證明,大模型的真正門檻在於高成本——海量算力、可以提供定製化服務的資料服務商、頂尖的人才團隊。
以算力為例,目前市場上用於訓練大型模型的計算晶元大多來自NVIDIA。 財報顯示,2023年,英偉達A100的價格將上漲約1倍。 僅部署1000臺伺服器,每月的電費就高達20萬元。
大型廠商的優勢在於,他們不僅有雄厚的資金來大規模購買和部署GPU,而且可以利用大模型,及時通過工程優化來提高效率。
據《晚點郵報》報道,11月,基於阿里巴巴的“通義千問”,跨境商業AI業務團隊正式發布了自己的產品“AIDe”,該產品具有翻譯、營銷、設計、本地化服務等一系列功能。 統計資料顯示,11月,AI優化產品收到的海外詢盤數量較之前增長了15%。
雲雀模式推出後,位元組陸續開發了豆袋、紐扣、爐灶等產品。 以爐膛為例,使用者可以與AI代理合作,通過故事聊天和創造互動體驗。
Sora 使用一種 Transformer 架構,該架構將 ** 和影象表示為稱為補丁的較小資料單元的集合,類似於 GPT 中的令牌。 重要的是,與 GPT 一樣,它符合 AI 縮放定律,這意味著樣本質量會隨著訓練計算量的增加而顯著提高。
有業內人士表示,目前SORA暫不對外開放,只有OpenAI首席執行官Sam Altman在X平台上互動評論**,認為算力的限制可能是目前SORA不開放使用的重要因素。
算力已成為最受關注的資源之一。 2018年,阿爾特曼個人投資了AI晶元初創公司Rain Neuromorphics,2019年,OpenAI斥資5100萬美元購買了Rain的晶元; 去年11月,阿爾特曼為一家代號為“底格里斯河”的晶元公司尋求數十億美元的資金。
軟銀集團(SoftBank Group)創始人孫正義(Masayoshi Son)正在尋求籌集1000億美元,以成立一家晶元公司,以補充其半導體設計公司Arm的業務。
然而,索拉的驚訝並不意味著其他人沒有機會。 **上台前的明星公司有Runway和PIKA,雖然很多人認為SORA很容易降低兩者的維度,但PIKA創始人郭文靜在回應Titanium**時表示,“我們覺得這是乙個非常令人振奮的訊息,我們已經準備直接衝了過來,將直接對標SORA進行基準測試。 ”
事實上,OpenAI並非沒有競爭對手。 與 Sora 同時發布的還有 Google 的 gemini1據官方資料顯示,5 Pro支援高達100萬個Token,遠超目前其他基礎機型,可以一次處理大量資訊,如1小時的音訊,超過30,000行**,或超過700,000字。
SORA當然是OpenAI領導地位的有力證明,但它更像是大型模型“權力奇蹟”賽道上競爭公升級的訊號。
文章封面上的第一張圖片和隨附圖片的版權歸版權所有者所有。 如果著作權人認為自己的作品不適合大家瀏覽或不應免費使用,請及時與我們聯絡,平台將立即更正。