視覺中國。
文字 |作者 Tseri 的見解 | renee在AI的長河中,不乏一夜成名的技術。 上面的圖片取自Sora的演示**,無論是微微蓬鬆的貓毛,還是主人醒來時皺起的眉毛,都與現實世界中的圖片無異。
半個月前,Open AI發布了首款文生**模型Sora,再次讓AI世界沸騰——它是第一款可以根據人類指令生成長達一分鐘**的模型,而最後乙個討論度如此之高的產品就是ChatGPT。
從ChatGPT到Sora,在過去的16個月裡,AI世界的戰爭已經從千模大戰的戰場蔓延到各種細分應用。
對於普通人來說,就是你可以問各種問題,比如文心一言、尋飛星火等一般的大模型,生成各種文字和答案,但現在你可以通過文字描述產生高度的還原。 這是 OpenAI ** 的演示,一架無人機圍繞著阿馬爾菲海岸岩石露頭上一座美麗而歷史悠久的教堂......
更讓人吃驚的是,之前的**模型是多個真實**的組合,卻沒有理解能力,而sora是“理解”人的話之後的**的構建。
我們可以看到,在OpenAI SORA的官方介紹頁面中,紙飛機有自我意識,可以自由飛行。 這或許是OpenAI的終極目標,也將是無數AI廠商的願景。
目前,SORA已經擂響了戰鼓,而Byte、Byte等各大AI標籤廠商是否會效仿,能否打造出類似的模型,是擺在李彥巨集和張一鳴面前的乙個問題。 但目前,大廠們都默默無聞,等待著自己的質變。
當然,一旦製作完成,類似Sora的模型變現路徑比ChatGPT更“現實”。
它可以成為抖音、浩侃**等平台的高效創作工具,也可以製作簡單的特效,為最近火熱的微短劇提供更多題材。 再猜測一下,影視作品中大部分的特效成本和人工成本都可以節省下來。
不過,對於國內大模型創業的企業來說,又有乙個障礙——ChatGPT還沒消化,又有了新的話題。 有了,沒有更多的能量,沒有跟隨,沒有熱量可能會冷卻得更快。
一系列文章和**顯示效果表明,SORA的誕生意味著文盛**模型應用的細分現在是 iPhone 的時候了。
其實文盛**並不是什麼新鮮事,去年年底,全球AI公司陸續發布了自己的文盛**模型。 去年 11 月,Meta 發布了**生成模型鴯鶓視訊。 從官方示例中可以看出,它僅限於更簡單的操作。
緊接著,穩定性AI 還發布了乙個開源的生成模型 Stable Video Diffusion (SVD),並在官方**中大方地承認了自己的缺點——生成的 ** 在動態上相對缺乏。
也就是說,在去年年底,生成高度一致和動態的動態內容是生成領域面臨的最大挑戰
在 Sora 發布之前表現最好的是 Pixeldance。 從顯示的結果來看,在基本模式(使用者只需要提供指南**+文字描述)下,角色的動作、面部表情、攝像機透視控制、特效動作都可以很好的完成。
國內大型廠商也在去年年底開始布局。
去年11月18日,位元組跳動推出了文生**模型Pixeldance,可以產生高度一致和豐富的動態**。 阿里還推出了Animate Anyone模型,乙個角色**,在骨骼動畫的指導下,可以生成動畫**。
23年底,文盛**工具“Du Plus Editing”發布,據說可以一鍵獲取最新熱點和AI生成的文案一鍵生成**。與此同時,一大批“應ChatGPT而生”的AI創業公司也在去年年底參與其中,共同探索AI大模型的應用。
時間到了 2024 年 2 月中旬,OpenAI 的 SORA 仍然遙遙領先,效果更加逼真流暢。
為什麼SORA能脫穎而出? 周弘毅叔叔給出了答案,大致意思是,在此之前,我們用擴散來製作**和圖片,我們可以把**看作是多個真實**的組合,它並沒有真正掌握這個世界的知識。
但是索拉可以像人類一樣理解,坦克具有巨大的衝擊力,坦克可以撞車而不會撞到坦克。 Openal 利用其作為大型語言模型的優勢,將 LLM 和 DIFFUSION 相結合進行訓練,使 SORA 能夠實現對現實世界的理解和模擬。
由於 Transformer 架構引領了通用大模型的浪潮,因此 LLM+DIFFUSION 的新興研究框架可能會有大量的追隨者。
是否遵循開源,是否從事開源,已經成為每個AI廠商的難題。
事實上,是否遵循SORA的問題可能不再取決於單個公司的意願,而是取決於一些硬性條件+軟實力。 例如,公司是否還有足夠的籌碼?
去年,根據Cerry Insight的估算,ChatGPT僅在接入階段就消耗了3萬多A100,這已經是巨頭的遊戲了。 根據去年流傳的乙份交流紀要,大型廠商擁有豐富的資源——阿里雲AI專家提到,阿里雲在雲上有數萬個A100個,總體數量可以達到10萬個,集團規模應該是阿里雲的5倍。 騰訊雲使用 H800 加速卡構建大規模算力集群,集群規模為數千台伺服器。
雖然SORA只是乙個**模型,但對算力的渴求卻不小。 目前,在訓練端沒有明確的演算法架構和詳細的訓練資料。 根據民生預估,所有新YouTube都需要在乙個月內進行培訓約231片A100。 考慮到模型經過多次訓練,算力需求仍有可能大幅增加。 而對推理的需求更是驚人假設 SORA 模型引數為 30 億,則對應1846萬A100需求
緊接著,第二個致命的問題是,公司是否擁有高質量的資料集? 現階段,谷歌、OpenAI等國際廠商都在爭奪高質量的文字資料集。
根據第一批大型模型潮流引領者的經驗,如果沒有足夠的彈藥,他們很可能會匆匆離開現場。
據智東不完全統計,2023年11月至2024年1月,有4家AI大型模型創業公司宣布關閉。 其中,有來自大廠的獨立團隊,有明星產品創始人新成立的公司,也有走過十幾年的“老”企業。 有的缺錢,有的缺精準定位,想玩AI,光有空的熱情是遠遠不夠的。
事實上,更致命的問題是,這家公司有人工智慧天才嗎?
周弘毅表示,科技的終極競爭是人才密度和深度積累。 這裡的人才密度,絕不是規模問題——畢竟OpenAI的SORA團隊只有13人,由新人博士領銜,由00後參與。
我們不得不佩服OpenAI充分發揮“選拔人才”的勇氣,除了未知的潛力,年輕人還有乙個最大的優勢——生存。 據謝賽寧介紹,SORA是Bill在OpenAI的苦心工作,“雖然不知道細節,但他們基本上天天不睡覺,一年都高強度工作。
從上述部分團隊成員的背景可以看出,門檻極高——大部分都是名校博士畢業生+實習工作經驗,也有本科生,但也必須有創業經驗和多重工作經驗。 無論是 OpenAI,還是人才本人,積累了無數的量變,為質變做準備。
或許,包括OpenAI在內的AI公司,正在等待哪個“沒人”(要麼是麻省理工學院、青北級的學生,要麼是3-5年的創業經驗、大工廠經驗,或者兩者兼而有之)實現AI的真相,一舉成名,成為AI之神。
ChatGPT和SORA告訴我們的是,A100、高質量資料、AI天才是新時代的稀缺材料,國內大型廠商還缺。
在各類AI資源都非常有限的情況下,所有在AI廠商在紛紛效仿之前,都不可避免地會考慮投資回報率,也就是說,SORA能大幅改變哪些行業模式? 同時,也與大廠的現有業務密切相關?
答案就是短期行業。
對於定位於熱點話題的創作者來說,SORA可以說是大大提高了工作效率。 畢竟熱點話題競爭是時效性的,大家很難有二次創作的空間,只要學會,就能迅速拉開差距。 目前,國內已有電商服務機構推出“AI根據熱梗自動編寫**指令碼”服務,以主播商品。
對於一些深度話題,創作者可以在分工上與AI合作。
創作者製作活動產品的差異化內容,並確認文章大綱; AI負責部分重複性工作,比如展示產品的特點,自動給文字新增背景,不需要創作者去大搜尋。 也就是說,創作者依靠AI可以節省很多東西,並且會有更多的“靈感閃現”。吸引更多使用者留下來。
其中,最大的受益者是平台。 因此,不難理解為什麼2月7日,抖音集團CEO張楠辭去集團CEO職務,專注於建英的發展。 據了解,在過去的一年裡,張楠將大部分精力都傾注在了與建英相關的業務上,並親自帶領團隊在AI輔助創作上尋求突破,即將推出AI原始畫面和一流的產品。
*平台快手必然會朝著這個方向努力:在去年的大模型浪潮中,快手宣布成立大模型研發團隊,推動搜尋和AIGC的建立**應用方面。
,也跟不上步伐。 好看**雖然存在感不高,但每年都在以實實在在的方式推廣業務:從2020年下半年開始,一系列大規模的運營開始了。 先後投資MCN沐雲文化,引進宋健(內容生態平台總經理,一年前離職),並於11月17日宣布以36億美元收購YY中國。
2024年,微短劇將爆發,並將繼續增加市場。 據光子星球介紹,適配微短劇的基礎設施建設將在上半年完成,包括創作者生態、發行邏輯、使用者運營等,並嘗試貫穿變現路徑。
微短劇可能是“使用的地方”,例如sora**模式。
相較於大型影視大作,微短劇的特效製作和內容創作門檻較低,同時,類似SORA的模式可以為最近火熱的微短片劇,比如科幻,提供更多的題材。 如果角色的細節逼真,演員的片酬可能為零,如果成本很低,內容行業就會迅速洗牌。
我們亟需在中國推出SORA專案,除了新業務的需求外,還需要考慮選址問題。 作為最後一場千模大戰的發起者,是時候再次證明自己了。
2024年的春天來得很晚,無論是在真實天氣方面,還是在人工智慧行業方面。
去年冬天,研究部憑藉過去AI的積累,能夠趕上大模型的浪潮,市場部也得以趁此召開會議,與朋友展開千模大戰。
這個冬天,當科研人員還在加班加點思考如何將通用模型落實到千行百行時,文盛領域又出現了乙個勁敵**。
總是在黑暗中前行,總會有人走得更快,國產AI廠商的曙光近了又遠。
不過,離黎明更近的索拉,也需要加強對常識的學習——完整看完頭像的原文**後,發現女孩的胳膊和手不在同一維度上。