自從OpenAI宣布其新的生成式AI模型Sora以來,可以說是“一石激起千浪”,相關討論一直沒有停止。
人們感到期待、焦慮和恐懼......新工具,聲稱能夠輸出 60 秒的文字命令**它們共同構成了乙個巨大的“索拉混沌地圖”。 一方面,各種標籤都說“the** is generated by sora”,但實際上網友們製作的搞笑**,卻成了“一生”的流量密碼,讓很多網友好玩的人收穫了快樂。
網友們將這個搞笑**標記為“the**tagged by sora”。
另一方面,雖然SORA尚未開放使用,但網際網絡上出現了大量“培訓機構”,利用行業焦慮和資訊不對稱開始收割韭菜。 一位自稱是清華大學博士的博主,以199元一本的價格賣出了520多本AI入門課程。 還有人發現,他這個AI課程一年賣出25萬套,銷量近5000萬。 所以網友們紛紛稱他為唯一能與奧特曼平起平坐的AI巨頭。
網友製作的模因。
索拉到底是什麼?
Sora源自日語單詞“sora”,不僅指天空,還象徵著無限的空間和無限的可能性,從而引出了自由的意義。 在OpenAI對SORA的介紹中,可以看到無數的紙飛機在空中自由飛翔,象徵著SORA模型的自主性和創造性,體現了“空”中蘊含的自由概念。
SORA 介紹頁面。
我想大家應該看過很多各類SORA一代**,相信很多人看完都會有疑問**:SORA是如何產生的**?
在OpenAI發布的技術報告中,SORA是這樣描述的:SORA是乙個“擴散變壓器”。 在處理方式上與傳統轉換器(包括編碼器和解碼器)有相似之處,但它們處理的不是文字標籤,而是稱為“補丁”的視覺資料。
補丁實際上是大型模型在處理**和影象資料時將視覺資料分解成小塊或小部分的一種方法。 通過將影象壓縮成低維潛空間,將空間的身份分解為多個補丁,使模型能夠更好地處理和生成高質量的影象內容。 這種方法的優點是它允許模型處理具有不同解像度、持續時間和縱橫比的視覺資料,從而為影象生成提供更大的靈活性和能力。
視覺化編碼過程。
“擴散變壓器”是一種將擴散模型與變壓器架構相結合的技術,它可以通過利用變壓器處理資料之間複雜關係的能力,以及擴散模型逐步細化資料的策略,從嘈雜的資料中逐步恢復乾淨的資料來生成影象或**,從而在影象中生成或***“乾淨”的補丁。
讓我們舉個簡單的例子,如果我們現在有乙隻狗**,我們可以一步一步地給這個**新增噪音,讓它變得越來越模糊,最終它會變成一團亂七八糟的噪音。 如果我們把這個過程反轉過來,我們也可以針對一堆雜亂無章的雜訊一步一步地去掉雜訊,並恢復到目標**,而擴散模型的關鍵就是學會反轉雜訊。
其實之前流行的《Midjourney》和《Stable Diffusion》的影象和**生成器也是基於擴散模型的,但不同的是,Sora可以一次將模型**製作成多幀,保證了主體即使離開視線也能保持不變,也展現了對影視拍攝語法的全新自發理解, 不僅可以跟隨拍攝物件移動相機,還可以在移動鏡頭時改變角度。仍然可以保持圖片的合理性和完整性。
SORA的另乙個強項是它“繼承”了OpenAI對文字的理解能力,可以根據提示詞生成高質量的**和**,並且可以向前或向後擴充套件**,例如,在這個官網上展示的這個**中,SORA可以基於相同的**開頭進行擴充套件,延伸到不同的結尾,或者從不同的開頭介紹, 最後得到同樣的結局。
所有三個開始最終都會導致相同的結局。
但事實上,OpenAI的野心遠不止於此,SORA不僅僅是乙個創造性的工具,它實際上是乙個複雜的基於資料的模擬系統,能夠模擬真實或想象的世界。 它通過學習如何正確渲染場景、模擬物理行為、執行長期推理和理解場景的含義來建立逼真的 3D 場景和動畫。
這讓它能夠創造出很多現實中不存在的**,比如在下面的**中,提示“兩艘海盜船在一杯咖啡中航行時互相爭鬥的逼真特寫**”不僅要求Sora生成逼真的3D模型,還要讓這些模型按照物理規則進行動畫製作,並模擬液體的動力學, 並使用先進的渲染技術來達到**級的真實感,即使場景的語義在現實世界中不存在,但引擎仍然達到了我們期望的正確物理規則。
儘管SORA目前仍然存在缺陷,但它是乙個很有前途的目標,通過構建如此複雜的模擬系統,我們可以對現實世界的數字互動進行建模和構建。 無論是谷歌、OpenAI還是馬斯克的XAI,最終目標都是構建世界模型,比如電影《流浪地球2》中的MOSS就是強人工智慧的化身,它可以通過構建真實世界的模型和強大的算力,推斷出不同選擇導致的結果,從而達到最終目標, 在很多人眼中,這可能是人工智慧的終極形式。
但無論如何,這些都是以後的事情。
Sora真的會砸掉整個影視行業的工作崗位嗎?
事實上,人工智慧從誕生之日起就經常成為很多人幻想中的“假想敵”,而隨著ChatGPT等新工具的開發,對AI的遙遠恐懼逐漸演變成對手頭工作的深深擔憂,尤其是在SORA發布之後。
就SORA的產生能力而言,首當其衝的一定是影視從業者。 畢竟用傳統方式製作1分鐘的片段成本非常高,除了場景、燈光、演員之外,還需要提前溝通故事板,找到乙個好的角度,考慮攝影機和演員的位置。 如果你需要一些特殊的因素,比如轉瞬即逝的光影、理想的天氣條件等,那麼你就得賭運氣了。
而這一切在SORA這裡都不是問題,只要通過簡單的提示語句,就可以直接生成**,並且與以往的AI工具相比,無論是**時長、畫面的精細度,還是細節的完整性,甚至是多鏡頭拍攝,SORA都可以用“碾壓”來概括, 這顯然會對相關從業者產生更大的影響。
在網友們製作的模因圖中,經典的荷里活標誌“荷里活”變成了“索拉伍德”。
根據行業研究公司CVL Economics最近對荷里活行業領導者的調查,焦慮目前籠罩著荷里活,36%的受訪者表示,生成式人工智慧減少了對公司日常工作技能的需求,72%的受訪公司是生成式人工智慧工具的早期採用者。
其中,75%的受訪者表示,生成式人工智慧工具促使其業務部門削減了與合併相關的工作。 預計未來三年荷里活將有超過20萬個工作崗位受到人工智慧的影響,尤其是視覺效果、音效藝術家和素描師等後期製作工作。
事實上,受影響的不僅僅是影視行業的人。 面對來自SORA的“降維攻擊”,AI領域的一些創業者,比如RUNWAY首席執行官克里斯托瓦爾·瓦倫蘇埃拉,已經做好了“遊戲開啟”的準備,有的像PIKA創始人郭文靜開始準備一款以SORA為基準的新產品,也有像Stability AI首席執行官Emad Mostak這樣的人,忍不住感嘆“奧特曼真是個魔術師”,把SORA當成AI**全球的GPT-3瞬間。 這一次,很多人真的感受到了危機感。
風景應該是有遠見的。
雖然 sora 真的很令人興奮,但您不必對此過於焦慮。 一方面,在sora產生的**中,還有很多經典的“靈魂錯誤”。 例如,在許多**中,角色和動物會消失、變形或憑空變出轉殖體; 也會有一些違背物理常識的“鬧鬼”影象,比如乙個人吹的蠟燭不變,籃球穿過籃筐,椅子漂浮和移動等。
在空產生的**中,老人吹滅蠟燭前後的火焰根本沒有動,有點詭異。
另一方面,人工智慧在創作邏輯上與人類完全不同,因此無法真正區分好故事和壞故事。 有很多人認為,機器生成的東西越多,對人類的創造就越珍貴,比如,帶有“鍋氣”的食物往往比預製菜更好,體現工人努力的器皿不如機器準確,但具有更多的“溫度”......這樣的例子可以說無處不在,更不用說在影視中了,最能體現人類情感,囊括了各種藝術範疇。
比如,在很多電影場景中,在人物的表情、語氣、表情背後,不僅有各種細膩的人類情感,更是半輩子的經歷、情感和習俗的總和。
這些內容雖然看似不起眼,卻無時無刻不在傳達著大量的資訊,而正是這些內容真正融入到每乙個獨特的人身上,也通過各種反應和互動,形成了人物之間的情感流動,正是這些細節的變化,默默地影響著我們的情感,帶給我們感動, 這是生成式AI很難做到的,這或許是很多AI生成器“沒有靈魂”的根本原因。
經典電影《黎明前的愛情》幾乎全部由對白組成
此外,AI在影視行業的應用並不新鮮,此前橫掃荷里活最佳影片、最佳導演等7個獎項的《瞬時宇宙》都使用了Runway的AI**工具,去年21世紀福克斯曾與IBM Watson合作,使用AI工具為AI題材恐怖片《摩根》製作預告片, 迪士尼的漫威完全使用人工智慧製作了《秘密入侵》的開場動畫。
不久前,英偉達創始人黃仁勳在接受採訪時表示,“在過去的10年或15年裡,幾乎每個人都會告訴你,學習計算機對孩子來說很重要,每個人都應該學習如何程式設計。 但其實恰恰相反,我們的工作就是創造計算技術,讓沒有人需要程式設計,讓程式語言更加靈活,現在世界上的每個人都是程式設計師,技術鴻溝已經完全彌合了。 ”
而這似乎已經成為了AI時代的真實寫照,無論是chatgpt-4還是SORA,在日新月異的新技術的幫助下,不懂程式語言的人也可以製作軟體程式,沒有影視相關技術背景的人也可以從容地製作自己的**,這無疑會走得更遠, 啟用新的產能,推動行業發展,甚至在人與人之間產生新的聯絡,這或許是生成式AI更大的意義。
我們有理由期待,未來,AI技術和電影或電視劇集的製作必然會有更多的組合和創新,也許會出現一些我們從未想象過的精彩作品,給我們帶來更多的驚喜。