長文解釋中國如何複製索拉！ 996 OpenAI 研究員 Sora 是 GPT 2 時刻

編輯：編輯部。

新致遠指南]透露自己 996 工作和休息的 OpenAI 研究員 Jason Wei 表示，SORA 代表了 GPT-2 時刻的產生。競爭的關鍵是計算能力和資料。是否有可能在國內成功繁殖 Sora？這份由中國團隊撰寫的37頁技術報告或許可以給我們一些啟示。

如今，這張圖片在AI社群中很火爆。

它列舉了一些學者模型的出生時間、結構和作者身份。

毫不奇怪，谷歌仍然是第乙個成立模型的作者。但現在AI**的聚光燈已經被Sora搶走了。

與此同時，曝光996工作和休息時間表的OpenAI研究員Jason Wei表示

SORA 是乙個里程碑，代表了 GPT-2 時刻的產生。」

對於文字生成領域來說，GPT-2無疑是乙個分水嶺。 2018 年 GPT-2 的推出標誌著乙個能夠生成連貫、語法正確的文字段落的新時代。

當然，GPT-2 也很難完成一篇完整無誤的文章，會出現邏輯上的不一致或捏造事實的情況。然而，它為隨後的模型開發奠定了基礎。

在不到五年的時間裡，GPT-4 已經能夠執行複雜的任務，例如串聯思維，或寫一篇長篇文章，而無需捏造事實。

而今天，SORA已經意味著這樣乙個時刻。

它創造了既藝術又現實的短**。雖然還不能創作一部40分鐘的電視劇集，但人物的一致性和講故事的方式已經非常引人入勝了！

Jason Wei 認為，保持長期一致性、近乎完美的真實感和創造深刻故事情節的能力將在 SORA 和未來的生成模型中逐漸形成。

Sora會擾亂荷里活嗎？離大片有多遠？

荷里活知名導演泰勒·佩里（Tyler Perry）看到索拉的**後感到震驚，並決定取消他在亞特蘭大工作室的8億美元擴張計畫。

因為在未來拍攝的大片中，可能不需要找外景地，也不需要搭建真實場景。

那麼，SORA會顛覆電影業嗎？ Jason Wei 表示，就像現在的 GPT-4 一樣，它可以作為輔助工具來提公升作品質量，所以距離專業電影製作還有一段路要走。

現在，**和文字最大的區別在於前者的資訊密度較低，因此在學習**推理等技能時，將需要大量的計算能力和資料。

因此，對高質量資料的競爭將非常激烈！就像現在每個人都在爭奪高質量的文字資料集一樣。

此外，將**與其他資訊模式相結合作為學習過程的輔助手段也至關重要。

而在未來，擁有最佳處理經驗的AI研究人員將變得非常搶手！然而，他們也需要適應新的技術趨勢，就像傳統的自然語言處理研究人員一樣。

OpenAI 的 TikTok 帳戶仍在發布 Sora 的新作品。

Sora離荷里活大片有多遠？讓我們來看看這部電影中經常出現的乙個場景——一輛汽車在瓢潑大雨中飛馳在城市街道上。

a super car driving through city streets at night with he**y rain everywhere, shot from behind the car as it drives

例如，SORA生成的建築工地也非常逼真，有叉車、挖掘機、腳手架、建築工人。

它還捕捉到了微型攝影的效果，使一切看起來都像乙個微觀世界。

當然，如果仔細觀察，圖片會有一些問題。

例如，乙個人會突然變成幾個人。

或者，乙個人突然變成另乙個人。

這家人工智慧公司的創始人SWYX得出結論，根本原因是SORA沒有中間物理模型，這與Lecun的世界模型完全相反。

儘管如此，它還是在電影製作過程中創造了巨大的飛躍，並大大降低了成本。

雖然跑道可以做類似的事情，但 Sora 將一切都提公升到了乙個新的水平。

以下是 Sora 和 Pika、Runway Gen-2、Animatediff 和 Leonardoai 的比較。

在不久的將來，也許我們每個人都可以在幾分鐘內製作出自己的電影。

例如，我們可以使用 ChatGPT 來幫助編寫指令碼，然後使用 SORA 轉換文字**。未來，SORA一定會突破60年代的時間限制。

想象一下，如果你的腦海中有一部從未存在過的電影會是什麼樣子。

或者，我們可以使用 DALL-E 或 Midjourney 生成影象，然後使用 Sora 生成 **。

d-id 可以使角色的嘴巴、肢體動作和台詞保持一致。

之前風靡全網的《哈利·波特》巴黎世家時尚大片。

Elevenlabs，可以為**中的角色配音，增強情感衝擊力**，並創造視覺和聽覺敘事的無縫融合。

製作自己的大片就是這麼簡單！

不幸的是，SORA的培訓費用約為10百萬美元。

去年ChatGPT發布後，千模大戰的巨集大場面突然浮現。而這一次距離Sora的誕生已經過去了半個月，公司仍然保持沉默。

中國企業如何複製SORA技術？

近日，中國團隊也發布了乙份非常詳細的SORA分析報告，或許會給這個問題帶來一些啟示。

中國團隊對SORA進行逆向工程

最近，利哈伊大學的乙個中國團隊和Microsoft副總裁高建峰博士共同發表了乙份37頁的分析**。

通過對公開技術報告的分析和對該模型的逆向工程研究，全面考察了SORA的發展背景、所依賴的技術、在各行業的應用前景、當前的挑戰以及文字到**技術的未來趨勢。

其中，研究主要集中在SORA的發展過程和構建該虛擬世界模擬器的關鍵技術上，深入探討了SORA在電影製作、教育、營銷等領域的應用潛力和可能的影響。

*位址：專案位址：

如圖 2 所示，Sora 能夠展示準確理解和執行複雜人類指令的能力。

在製作可以詳細顯示運動和互動的長一代方面，SORA也取得了長足的進步，在長度和視覺表現方面突破了上一代技術的侷限性。這一能力標誌著人工智慧創意工具的重大飛躍，允許使用者將文字敘述轉化為生動的視覺故事。

據研究人員稱，SORA之所以能夠達到如此高的水平，不僅是因為它能夠處理來自使用者的文字輸入，還因為它能夠理解場景中各種元素的複雜相互關係。

如圖 3 所示，生成式計算機視覺（CV）技術的發展路徑在過去十年中是多種多樣的，尤其是在 Transformer 架構成功應用於自然語言處理（NLP）之後。

研究人員通過將 Transformer 架構與視覺元件相結合，例如突破性的 Vision Transformer （VIT）和 Swin Transformer），推進了其在視覺任務中的應用。

同時，擴散模型在影象和影象生成領域也取得了突破性進展，它們展示了一種通過u-net技術將雜訊轉換為影象的數學創新方法。

自 2021 年以來，人工智慧領域的研究重點已轉移到那些能夠理解人類指令的語言和視覺生成模型，即多模態模型。

隨著 ChatGPT 的發布，我們看到了 2023 年出現 Stable Diffusion、Midjourney、Dall-E 3 等商業文字轉影象產品。

然而，由於時間固有的複雜性，大多數最新一代的工具只能製作幾秒鐘的短工具。

在此背景下，SORA的出現象徵著乙個重大突破——它是第乙個能夠基於人類指令生成長達一分鐘**的模型，其意義可與ChatGPT在NLP領域的影響相媲美。

如圖4所示，SORA的核心是擴散變壓器，可以靈活處理不同維度的資料，主要由三部分組成：

1.首先，時空壓縮器將原始**對映到潛空間。

2.接下來，Visual Transformer （VIT）模型處理已分割的潛在表示，並在去除雜訊後輸出潛在表示。

3.最後，乙個類似於CLIP模型的系統引導擴散模型根據使用者的指令（已通過大型語言模型增強）和潛在的視覺線索生成具有特定樣式或主題的**。經過幾個去噪過程後，獲得生成的**的潛在表示，然後由相應的解碼器將其對映回畫素空間。

如圖 5 所示，SORA 的標誌之一是它能夠處理、理解和生成各種尺寸，從寬屏的 1920x1080p 到縱向螢幕的 1080x1920p。

如圖 6 所示，與僅在均勻裁剪的正方形上訓練的模型相比，SORA 顯示出更好的影象布局，確保完全捕捉到場景中的主體，避免了有時因正方形裁剪而截斷影象的問題。

Sora對特徵的細粒度理解和保留是生成模型領域向前邁出的重要一步。

它不僅展示了生成更逼真和更引人入勝的潛力**，而且還強調了訓練資料多樣性對於實現生成式 AI 高質量結果的重要性。

為了有效地處理各種各樣的視覺輸入，例如不同長度、銳度和影象比例的**和**，乙個重要的方法是將這些視覺資料轉換為統一的表示。這樣做還有助於生成模型的大規模訓練。

具體來說，SORA首先將**壓縮為低維潛在空間，然後將表示分解為時空補丁。

如圖 7 所示，SORA 的 ** 壓縮網路（或視覺編碼器）的目標是降低輸入資料的維數，並輸出在時空壓縮中被壓縮的潛在表示。

技術報告中的參考資料顯示，這種壓縮技術基於VAE或向量量化-VAE（VQ-VAE）。然而，根據該報告，VAE很難在不調整影象大小和裁剪影象的情況下將不同大小的視覺資料對映到乙個統一且固定大小的潛在空間中。

針對這個問題，研究人員確定了兩種可能的技術實現：

1.空格補丁壓縮。

此過程涉及將 ** 幀轉換為固定大小的補丁，類似於 VIT 和 MAE 模型中使用的方法（如圖 8 所示），然後將它們編碼為潛在空間。

通過這種方式，模型可以有效地處理不同的解像度和縱橫比，因為它可以分析這些補丁以了解整個幀的內容。接下來，這些空間標記按時間順序排列，形成時空潛在表示。

2.時空補丁壓縮。

該技術包括資料的空間和時間維度，不僅考慮圖片的靜態細節，還關注圖片之間的運動和變化，從而充分捕捉圖片的動態特性。利用 3D 卷積是實現這種整合的一種簡單而有效的方法。

壓縮網路部分還有乙個關鍵問題：在將補丁饋送到擴散轉換器的輸入層之前，如何處理潛在空間維度（即潛在特徵塊或不同型別的補丁的數量）的變化。

根據 SORA 的技術報告和相應的參考資料，補丁 n'Pack（pnp）很可能是一種解決方案。

如圖 10 所示，PNP 將來自不同影象的多個補丁打包到單個序列中。

在這裡，補丁和令牌嵌入步驟需要在壓縮網路中完成，但 Sora 可能會像 Diffusion Transformer 一樣，進一步將潛在的補丁平靜到 Transformer 令牌中。

DIT和U-VIT是最早使用視覺變換器進行潛在擴散模型的機構之一。與VIT一樣，DIT也採用了多頭自注意力層和點卷積前饋網路，交錯了一些層歸一化和縮放層。

此外，DIT還通過自適應層歸一化（ADALN）進行零初始化，並增加了乙個額外的MLP層，使每個殘差塊都初始化為乙個恒等函式，從而大大穩定了訓練過程。

U-VIT將所有輸入（包括時間、條件和雜訊影象補丁）視為令牌，並提出了淺層和深層Transformer層之間的長跳連線。結果表明，U-VIT在影象和文字到影象生成方面取得了破紀錄的FID分數。

與掩模自編碼器（MAE）方法類似，掩模擴散轉換器（MDT）也在擴散過程中增加了掩模潛伏模型，有效提高了影象中不同物件部分之間上下文關係的學習能力。

如圖 12 所示，MDT 在訓練階段使用側插值執行額外的掩碼令牌重建任務，以提高訓練效率並學習用於推理的強上下文感知位置嵌入。與 DIT 相比，MDT 具有更好的效能和更快的學習速度。

在另一項創新工作中，Diffusion Vision Transformer （Diffit）採用瞬態自注意力（TMSA）模組來模擬取樣時間步長內的動態去噪行為。

此外，Diffit 採用兩種混合分層架構，分別在畫素空間和潛在空間進行高效去噪，並在各種生成任務中實現新的 SOTA。

由於世界的時空性質，在該領域應用DIT的主要挑戰是：

1）如何在空間和時間上將**壓縮到潛在空間中，以實現高效的去噪;

2）如何將壓縮的潛空間轉換為補丁並輸入到變壓器中;

3）如何處理遠距離的時空依賴性，保證內容的一致性。

imagen video 是由 Google Research 開發的文字到影象生成系統，它利用級聯擴散模型（由 7 個執行文字條件、空間和時間超解像度的子模型組成）將文字提示轉換為高畫質。

如圖 13 所示，首先，凍結的 T5 文字編碼器根據輸入的文字提示生成上下文嵌入。隨後，將嵌入資訊注入基礎模型以生成低解像度**，然後通過級聯擴散模型進行細化以提高解像度。

Blattmann 等人提出了一種將二維潛伏擴散模型（LDM）轉換為視訊潛伏擴散模型（video LDM）的創新方法。

模型指令調優旨在增強 AI 模型準確跟隨提示的能力。

為了提高遵循文字指令的文字到模型的能力，Sora 使用了與 DALL-E 3 類似的方法。

該方法涉及訓練描述性標題生成模型，並使用模型生成的資料進行進一步的微調。

通過這種指令調優，SORA能夠滿足使用者的各種要求，確保對指令中的細節給予精確的關注，最終的**能夠滿足使用者的需求。

文字提示對於指導文字到模型模型（如 Sora）至關重要，使其既具有視覺衝擊力又能精確地滿足使用者的建立需求。

這需要建立詳細的指令來指導模型，以彌合人類創造力和人工智慧執行能力之間的差距。

Sora的提示涵蓋了廣泛的場景。

最近的研究工作，如 VOP、Make-A-Video 和 Tune-A-Video，已經展示了提示工程如何利用模型的 NLP 功能來解碼複雜的指令，並將它們呈現為連貫、生動和高質量的敘述。

如圖 15 所示，乙個經典的 sarra 演示展示了乙個時尚的女人走在霓虹燈閃爍的東京街道上。

提示包括角色的動作、設定、角色外觀，甚至所需的情緒，以及場景的氛圍。

這是乙個精心設計的文字提示，可確保 SORA 生成的 ** 與預期的視覺效果非常匹配。

提示工程的質量取決於單詞的仔細選擇、所提供細節的具體性以及對它們對模型輸出影響的理解。

影象提示就是為生成的內容和其他元素（如人物、場景和情緒）提供視覺錨點。

此外，文字提示可以指示模型對這些元素進行動畫處理，例如，通過新增動作、互動和敘事進展等圖層來使靜態影象栩栩如生。

通過使用影象提示，Sora 可以使用視覺和文字資訊將靜態影象轉換為動態的、敘事驅動的**。

在圖 16 中，顯示了乙個戴著貝雷帽和高領毛衣的 AI 生成的柴犬、乙個獨特的怪物家族、一朵形成 sora 這個詞的雲，以及乙個在歷史悠久的大廳裡乘著巨浪的衝浪者。

這些示例演示了使用 DALL-E 生成的影象提示 SORA 可以實現的目標。

提示也可用於生成。

最近的研究（如fast-vid2vid）表明，好的提示需要具體和靈活。

這確保了模型在特定目標上得到明確的指導，例如對特定物件和視覺主題的描述，並且可以在最終輸出中富有想象力地進行更改。

例如，在擴充套件任務中，提示可以指定擴充套件的方向（前進或後退時間）以及背景或主題。

在圖 17（a）中，提示指示 SORA 向後延伸乙個部分以探索原始起點的事件。

b）表明，在使用提示執行工具編輯時，模型需要清楚地了解所需的過渡，例如更改樣式、場景或氛圍，或更改照明或情緒等微妙方面。

c），提示指示 SORA 連線，同時確保現場不同場景中物件之間的平滑過渡。

SORA對各行各業的影響

最後，研究團隊還研究了SORA在電影、教育、遊戲、醫療保健和機械人領域可能產生的影響。

隨著SORA所代表的擴散模型成為一項前沿技術，其在不同研究領域和行業的應用正在迅速加速。

這項技術的影響遠遠超出了單純的創造，它為從自動化內容生成到複雜決策過程等任務提供了變革潛力。

*生成技術的出現預示著電影製作的新時代，從簡單的文字製作自己的電影的夢想正在成為現實。

研究人員已經涉足電影生成領域，將生成模型擴充套件到電影創作。

例如，使用 MovieFactory 從 ChatGPT 使用擴散模型製作的指令碼生成電影風格的 **，整個工作流程已經執行完畢。

MobileVidFactory 只需提供來自使用者的文字即可自動生成垂直移動**。

Sora 能夠毫不費力地讓使用者生成爆炸性的電影剪輯，這標誌著任何人都可以製作電影的時刻。

這將大大降低電影業的進入門檻，並為電影製作引入乙個新的維度，將傳統敘事與人工智慧驅動的創造力相結合。

這種人工智慧的影響不僅僅是讓電影製作變得簡單，而且它有可能重塑電影製作格局，在面對不斷變化的觀眾偏好和發行渠道時變得更加容易獲得和通用。

人們說，2024年是機械人的第一年。

正是因為大模型的爆發，再加上第一款模型的迭代公升級，機器人才進入了乙個新時代

生成和解釋具有增強感知和決策能力的複雜序列。

特別是，擴散模型為機械人解鎖了新功能，使它們能夠與環境互動並以前所未有的複雜性和精度執行任務。

在機械人技術中引入網路規模的擴散模型證明了使用大規模LLM來增強機械人視覺和理解的潛力。

例如，在DALL-E的加持下，機械人可以準確地排列餐盤。

另一項新技術是潛擴散模型。

它可以通過語言引導，使機械人能夠理解並通過***中的動作結果來執行任務。

此外，機械人研究對環境模擬的依賴可以通過擴散模型來解決，擴散模型可以建立高度逼真的序列。

通過這種方式，可以為機械人生成多樣化的訓練場景，打破缺乏真實世界資料造成的限制。

研究人員認為，將SORA等技術整合到機械人領域有望帶來突破。

利用SORA的力量，機械人技術的未來將以前所未有的方式發展，機械人可以無縫導航並與周圍環境互動。

此外，對於遊戲、教育、醫療等行業來說，AI**模式也將為此帶來深刻的變化。

最後，好訊息是，雖然SORA還沒有開放，但我們可以申請紅隊測試。

從申請表可以看出，OpenAI正在尋找認知科學、化學、生物學、物理學、計算機、經濟學等以下領域的專家。

符合條件的學生可以申請！

長文解釋中國如何複製索拉！ 996 OpenAI 研究員 Sora 是 GPT 2 時刻

相關問題答案

印度能否複製中國的崛起？網友和民國太像了，有四個致命的缺陷！

同時翻拍！神裡綾和賽諾如何選擇？大佬是這麼說的

返回頁首解讀中國復興之路

北斗系統中國科技底牌，演繹前瞻未來全球定位

2024年、2024年中國乙二醇產業鏈前瞻解讀及市場需求分析

長文解釋中國如何複製索拉！ 996 OpenAI 研究員 Sora 是 GPT 2 時刻

相關問題答案

印度能否複製中國的崛起？網友和民國太像了，有四個致命的缺陷！

同時翻拍！神裡綾和賽諾如何選擇？大佬是這麼說的

返回頁首 解讀中國復興之路

北斗系統中國科技底牌，演繹前瞻未來全球定位

2024年、2024年中國乙二醇產業鏈前瞻解讀及市場需求分析

返回頁首解讀中國復興之路