文字 VR 陀螺儀。
不可否認,OpenAI總能創造出爆炸性的模型。
就在農曆新年假期結束前,OpenAI再次在社交媒體上投下了一顆重磅炸彈**。 新的人工智慧系統SORA的出現預示著現代內容創作方式的根本變化。
來源:SORA
根據 OpenAI 的說法,Sora 不僅可以生成長達一分鐘的文字提示,還可以從靜止影象中生成它們,或者通過擴充套件現有提示或生成缺失的幀來填補空白。
雖然該模型目前只在應用中進行內測,但從國內外社會**的反應和官方提供的例項來看,SORA生成的**在質量和可靠性上都超越了該領域的“前輩”,顯示出成為下乙個ChatGPT的強勁勢頭。
當然,這其中也有一些炒作,但不可否認的是,SORA爆發的背後是資訊革命後第四次重大技術變革的全國狂歡,而“多模態真人工智慧”演進的又乙個里程碑出現在2024年初。
在SORA及其技術報告發布後,OpenAI的60秒長、高畫質、可控影象、多角度切換**的高階效果在國內外社交網路上風靡一時。
在Sora的魔力下,人們第一次知道AI生成的**可以如此逼真。
即使融入紀錄片,也沒有不服從的感覺(來源:SORA)。
要知道,2023年AI的**世代效應還是這樣的:
現實,但顯然,物件是不靈活的(來源:鼠兔)。
短短幾個月,文字生成技術實現了從5秒到60秒的飛躍,從動畫到紀錄片質量,讓人無所適從。
逼真的視覺效果和“未來已來”的社交**病毒式營銷,讓Sora成為2024年初AI領域最具突破性的人物,風頭甚至蓋過了幾乎同時發布的Gemini 15. 一時間,娛樂圈和科技圈都充斥著索拉的身影。
一年前,人工智慧生成的威爾·史密斯(Will Smith)吃麵條在網際網絡上風靡一時,僅Twitter上的麵條數量就超過800萬條。
一年後,威爾·史密斯(Will Smith)在索拉(Sora)刷屏後,在他的Instagram上上傳了一條**,並配文“它越來越失控了”。
如您所見,螢幕分為兩個部分:上半部分顯示一年前的 AI,下半部分顯示當前的 AI
圖源:x 雖然大家很快發現這只是威爾·史密斯玩的乙個表情包,**後半部分不是AI生成的,而是他自己錄製的,但很多網友卻大喊自己上當受騙了:“最令人毛骨悚然的是,你分不清這是表演還是人工智慧生成的。 ”
這也從側面證明,SORA的出現,讓人們開始相信,生成式AI可以是假的,也可以是真的,AI取代編輯的時刻似乎已經到來。 在Sora發布的另外乙個demo**中,可以看出角色在吃飯時咬人的動作,漢堡上的缺口和牙印,都和現實的規律一模一樣,完全比不上一年前史密斯吃麵條的恐怖效果。
漢堡有瑕疵,但牙印恢復得很厲害(來源:Sora)。
但是,無論生成效果有多好,總會有人能從中發現破綻。 在分析了SORA生成的demo後,很多影視業人士表示,SORA雖然在畫質、細節、光影、色彩等方面都有出色的表現,但目前還不能直接用於影視作品中,因為它在涉及鏡頭移動角度和更精細的內容控制方面還存在不足。
乙個明顯的例子來自這個**,其中角色在跑步機上倒車奔跑,而空顯然還不了解運動規律。
來源:SORA
另乙個佐證是四足螞蟻,空知道什麼影象代表螞蟻這個詞,但對完整的螞蟻形象的理解仍然不夠。
來源:SORA
然而,即使SORA並不完美,生成效果也足夠震撼,業內普遍認為SORA可以用於概念設計等前期影視開發。
再加上OpenAI致力於積極改善SORA的不成熟度,以及推出AI語音轉殖初創公司Elevenlabs來解決SORA的一系列“失聲”問題,在突破現實與虛擬的界限後,SORA將在未來為影視行業帶來更多的創新和突破。
SORA並不是第乙個問世的文字生成AI模型,但為什麼只有SORA成為全球的現象級熱門?
從根本上說,乙個是一流品質的跨級飛躍,乙個是“意想不到的核心技術”。
其中,SORA生成的質量有目共睹,單單是60s的相干生成時間,是跑道和鼠兔無法比擬的。 故障型之所以質量領先,業內人士認為是核心技術的強項。
博主“每日新聞”展示的三種模型生成效果(來源:x)。
國內深度學習專家李牧認為,SORA類似於世代世界GPT2公升級為GPT3的那一刻,模型的DIT比例可能與之前的作品變化不大,但使用了數百倍的算力,這是乙個奇蹟。 VIT,DALL·基於這個模型的 E、DiffusionMethods 和 VAE 並不是新技術,我相信學術界和開源社群很快就會跟進這種演示應用程式。
與Runway和Pika不同,SORA在擴散模型領域使用了之前在GPT上非常有用的Transformer解決方案,並利用文字模型強大的上下文理解能力進行擴散**的“幀生成”。
來源:SORA
簡單來說,SORA不會直接將文字轉換為文字中的每一幀,而是通過處理每個時空補丁來完成整體。
這類似於3D生成領域的塊生成,SORA對文字進行分析,將整個內容所代表的時空中的關鍵元素切割成相應的影象貼片,包括物體、動作、背景等,並通過內建的知識圖譜將這些貼片與物理世界的資料資訊重新整合成嘈雜的畫面。 最後,通過擴散模型對雜訊影象進行細化,成為逐幀生成的**。
來源:SORA
在時空資訊的約束下,SORA生成的**內容顯然更忠於指令,相當於SORA提前為**鋪設了劇本,**中生成的內容就像嚴格按照劇本執行的演員和布景,這也是Runway和Pika之前做不到的。
而這些成績,離不開SORA背後的核心團隊。 OpenAI 研究員 Jason Wei 在透露了乙份比 996 更緊湊的日常工作時間表清單後感到驚訝,他說:“沒有它的人,Openal 什麼都不是。(沒有員工的貢獻,OpenAI什麼都不是。 )”
圖源:X 根據此前的社**訊息,SORA團隊成員非常年輕,團隊中甚至還有00後的科研成員。 在這些參與者中,已知的核心成員包括研發負責人 Tim Brooks、William Peebles 和系統負責人 Connor Holmes。
與算力一起,人才被視為AI發展的基石之一,此前被歪曲為SORA作者之一的CV之神謝賽寧也認為,人才是SORA這樣複雜系統誕生的三個核心因素,另外兩個是資料和算力。
憑藉足夠驚豔的demo**+世界第三大獨角獸背後的年輕團隊,Sora在發布前就獲得了足夠的流量,成為拳打腳踢鼠兔的文字生成**領域唯一的神,甚至在國內打造了全新的“AI變現通道”。
在SORA還沒公開測試的時候,以李一舟為代表的“AI講師”們就已經大張旗鼓地賣線上課程了,勢必會讓“家族”趕上第一波用SORA賺大錢的浪潮。
資料來源:網際網絡。
只不過李一舟早就被人撿到了,並不是AI方面的專家,他的課程內容基本都是最基本的常識,更多的是“強調AI的力量和重要性”和“利用SORA關鍵詞吸引流量變現,賣賬號,賣生成**,賣教程”等網際網絡講師的老式變現操作。 和之前的“教你如何使用ChatGPT”一樣,屬於吃OpenAI的二次流量切韭菜。
與其關注如何趕上最新的AI技術,不如多關注AI的出現來改變生產模式,畢竟AI未來會朝著傻瓜式的易用性邁進,探索AI如何更好地在哪個領域進行增值內容生產,才是未來工作者更應該關注的。
AI“一鍵生成廣告圖片”工具亞馬遜AD(來源:亞馬遜)。
這也是SORA成為熱門話題的另乙個原因,在這種文字生成技術的幫助下,人們看到了AGI改變內容建立過程的例子。
在此之前,AIGC已經突破了文字生成和影象生成的層面,而現在,公認的創意媒體的最後一道障礙——一鍵生成*也已經開啟,隨著ChatGPT過往的成功故事,市場普遍認為SORA也可以成為下乙個改變工作流程的AI模型, 而不僅僅是停留在理論上。
SORA 發布後,網上有很多關於 OpenAI 下一步的猜測。 AI內容創作者“kwebbelkop”表示,OpenAI將從使用者那裡收集資料,以微調模型,使SORA更強大。
此外,OpenAI 還將收集這些 ****data** 來增強 SORA 的 RLHF(Reinforcement Learning from Human Feedback Algorithm),這意味著每個人都可以通過 SORA 一鍵建立社交 **hot**。 基於此,OpenAI甚至有可能推出乙個完全由AI生成內容組成的全新**平台,與YouTube、TikTok等競爭。
圖源:x 然而,OpenAI 的野心可能並不止於此。 內容生產轉型一直是人們對生成式AI關注的焦點,目前,OpenAI的人工智慧藍圖已經包括文生文的ChatGPT、文生的Dall·E 3, 文生的Shap·E,以及文生**的SORA。
在傳統的智慧型手機和PC平台上,我們已經看到了ChatGPT在AI生成領域的主導地位。 然而,傳統硬體的單一互動模式顯然無法激發多模態AI的全部潛力,正如AI顛覆了過去一樣,電子硬體產品也需要加速公升級,以滿足未來潛在的互動需求。
或許正是因為對AI互動生態的探索,OpenAI才會在2024年初推出蘋果最熱門的終端電子裝置Vision Pro後,緊急將ChatGPT放在VisionOS應用商店。
ChatGPT在Vision Pro上的推出,是OpenAI的乙個重要里程碑,直接向外界展示了AI(尤其是多模態AI)未來如何以更自然、更直觀、更身臨其境的方式進行互動。
Vision Pro 的眼球運動和手勢跟蹤(來源:Apple)。
可以說,蘋果Vision Pro與ChatGPT的合作,讓XR裝置再次有望成為下一代人工智慧計算終端的新選擇,畢竟它在短短乙個月的時間裡顛覆了工作體驗,讓不少科技大佬稱其為“驚人”。
蘋果Vision Pro正式發布後,不少社交博主開始佩戴Vision Pro進行各種日常生活和工作場景體驗,其中不少開發者嘗試使用Vision Pro進行編碼工作,得到了值得參考的XR工作體驗反饋。
資料來源:Apple。
IT 企業家 Willem 在部落格中講述了他的第一次 Vision Pro 程式設計體驗,他說:“它不僅非常便攜,而且還為您的眼睛提供了乙個完整的虛擬世界! 這幾乎就像我隨身攜帶了乙個巨大的多顯示器設定。 ”
Willem 和其他對 Vision Pro 持積極態度的人將重點放在“沉浸”一詞上,這是乙個真實世界的編碼介面,幾乎完全遮蔽了外界干擾:“在 Vision Pro 中,您幾乎與環境融為一體。 我喜歡在窗前走來走去,看著一些**或伺服器輸出,感覺它是一台大型工作機器。 在某種程度上,我感覺自己就像站在乙個大電腦房裡,這與傳統的桌面體驗完全不同。 ”
身臨其境的編碼體驗(來源:willem。com)
而當蘋果的AI時代到來時,身臨其境的編碼體驗將更加神奇。
知名科技記者馬克·古爾曼(Mark Gurman)爆料稱,蘋果正準備在iOS平台程式設計軟體Xcode的下一次重大更新中加入AI功能,以對標Microsoft的GitHub Copilot。
雖然有訊息表明,蘋果的功能更新旨在為 iOS 18、iPadOS 18 和 macOS 15 建立盡可能多的新 AI 功能,但 AI 功能在 VisionOS 上上線只是時間問題,這是蘋果未來生產力迴圈的重要組成部分。
AI對程式設計效率的提公升是顯而易見的,據GitHub官方部落格介紹,自發布以來,GitHub Copilot已經幫助超過100萬人提公升了開發者的生產力,幫助開發者提公升了55%的程式設計速度。
來源: github
而這不僅發生在程式設計師圈子裡,也發生在幾乎所有AI可以參與的辦公場景中,工作效率都得到了極大的提公升。 乙個類似的例子是 Substance 3D,這是 Adobe 為 Meta Quest Pro 開發的 3D 建模程式,其中虛擬世界中的 3D 建模已經完全退化了鍵盤和滑鼠,只需簡單的手勢即可輕鬆捏出設計模型。
繼 ChatGPT 之後,可以以成熟的 SORA 或其他 AI 生成的影象、模型和工具的應用程式形式加入 VisionOS 生態系統。 AI和Vision Pro這兩種流行技術的結合已經開始形成,以重塑辦公室和創意體驗。
圖源:X 這條技術變革之路需要大量的人才和企業前行,好在蘋果並不是AI+XR理念的唯一踐行者,就在SORA發布的同時,還有一件事也攪動了國內AI市場。
2024年2月18日,魅族宣布將停止傳統智慧型手機新專案的研發,轉而全力投向AI,全力投入“新一代AI”。 雖然做出這一決定的原因歸因於“手機賣不出去”,但從其後續的AI轉型計畫來看,魅族可能更關注AI+硬體的新市場需求。
資料來源:星記美族。
魅族公布的AI戰略計畫細節包括打造AI裝置產品、重構FlyMe系統、構建AI生態圈等。 公司CEO沈子宇在發布會上強調,魅族將打造全新的AI裝置,以AI原生設計重組產品形態,以更強大的硬體算力支撐AI全球移動化。
對於沈子瑜的“明日裝置”,很多人猜測會是AI手機,畢竟以AI終端為名的魅族21 Pro已經上市了。 不過,也有聲音認為,魅族已經將取代傳統手機形態的責任交給了XR眼鏡。
去年,魅族剛剛發布了搭載自帶智慧型“FlyMear”互動系統的MyVU AR眼鏡,從剛剛發布的三年AI願景來看,XR產品將在2025年佔據魅族產品生態中舉足輕重的地位。
資料來源:星記美族。
從蘋果的Vision Pro及其傳聞中的AR眼鏡形式產品開始,包括魅族、三星、華為、小公尺、OPPO、vivo等傳統手機廠商紛紛進入XR賽道,而如今,魅族全IN,OPPO也成立了AI中心,將資源集中在AI上,就像iPhone開創智慧型手機時代一樣, AI+智慧型硬體的結合,目前看來是開啟下乙個智慧型計算時代的最佳選擇。
這一趨勢也影響了領先的AI技術廠商,除了此前有訊息稱OpenAI募集7萬億美元押注晶元帝國外,業內頂尖的AI生成技術公司Midjourney也被曝出正在開發硬體產品。
據說Midjourney挖走了蘋果Vision Pro的硬體工程經理艾哈邁德·阿巴斯(Ahmad Abbas),以幫助開發一種收集3D資料、管理3D模型的工具,甚至在未來推出自己的VR頭顯。
LinkedIn介面顯示Ahmad已加入Midjourney(來源:LinkedIn)。
在這些領軍科技公司眼中,AI離不開硬體的應用載體,消費類硬體產品也需要AI的助力,才能再現智慧型手機時代的輝煌。
無論是蘋果自家的Vision Pro,新形態的AI PIN還是手機廠商設想的AI手機,都在探索與ChatGPT、SORA等前沿機型融合的最佳模式,而在2024年,當AI一代機型進入爆發階段時,硬體廠商很難接受硬體廠商難以接受。最佳運營商冠名權“將繼續追我。