分析 OpenAI Sora 的 Spacetime Patche 的關鍵元素

Mondo 科技 更新 2024-02-25

人工智慧如何將靜態影象轉化為動態逼真的**? OpenAI 的 SORA 通過創新地使用時空補丁提出了答案。

在快速增長的生成模型領域,OpenAI 的 SORA 以其顯著的里程碑脫穎而出,有望重塑我們對生成的理解和能力。 我們解讀了SORA背後的技術,以及它在影象、**和3D內容創作領域激發下一代模型的潛力。

上面的演示是由 OpenAI 生成的,並使用了以下提示:乙隻貓叫醒它熟睡的主人並要求吃早餐。 主人試圖無視貓,但貓嘗試了新的策略,最後主人從枕頭底下拿出一小份秘密零食,讓貓咪多等一會兒。 — 有了 Sora,我們進入了內容生成領域,在這個領域幾乎不可能區分真實性。 完整模型尚未完全向公眾發布,正在測試中。

在生成模型領域,我們已經看到了從GAN到自動回歸和擴散模型的各種方法,它們都有自己的優勢和侷限性。 現在,SORA 通過引入新的建模技術和靈活性來處理各種持續時間、縱橫比和解像度,從而帶來了正規化轉變。

SORA 將 Diffusion 和 Transformer 架構結合在一起,建立了乙個 Diffusion Transformer 模型,該模型提供:

Text-to**:正如我們所看到的。

影象:將生命注入靜態影象。

*To**:將**樣式轉換為其他東西。

延時**:前進和後退。

建立乙個無縫迴圈:似乎永無止境的瓷磚**。

生成的影象:靜止影象是單幀動畫(最大 2048 x 2048)。

以任何格式生成**:從 1920 x 1080 到 1080 x 1920,以及介於兩者之間的所有格式。

模擬虛擬世界:例如 Minecraft 和其他**遊戲。

建立** 最多 1 分鐘,包含多個剪輯。

想象一下,你在廚房裡。 傳統的生成模型,如鼠兔和 runwayml 就像嚴格遵循食譜的廚師一樣。 他們可以做出很棒的菜餚(但他們受到他們所擁有的食譜(演算法)的限制。 廚師可能擅長烘烤蛋糕(短片)或烹飪義大利面(特定型別的**),使用特定的成分(資料格式)和技術(模型架構)。

另一方面,Sora 是一種新型廚師,他了解口味的基本原理。 這樣的廚師不僅遵循食譜,還發明了新的食譜。 SORA的食材(資料)和技術(模型架構)的靈活性使SORA能夠生產出各種高品質**,就像廚師的多功能烹飪作品一樣。

在傳統的視覺轉換器中,我們使用一系列影象"補丁"訓練影象識別轉換器模型,而不是語言轉換器中的單詞。 通過補丁,我們可以擺脫卷積神經網路對影象處理的約束。

然而,視覺轉換器受到影象訓練資料的限制,這些資料的大小和縱橫比是固定的,這限制了影象的質量,並且需要對影象進行大量的預處理。

通過將 ** 處理為一系列片段,SORA 保持原始縱橫比和解像度,類似於 n**it 處理影象的方式。 這種保留對於捕獲視覺資料的真實性質至關重要,它允許模型從更準確的世界表示中學習,從而使SORA具有近乎神奇的準確性。

通過這種方法,SORA可以有效地處理各種視覺化資料,而無需進行預處理步驟,例如調整大小或填充。 這種靈活性確保了每條資料都有助於理解模型,就像廚師使用各種食材來增強菜餚的風味一樣。

使用時空補丁對 ** 資料進行詳細而靈活的處理,為精確的物理模擬和 3D 一致性等複雜功能奠定了基礎。 這些功能對於建立不僅看起來逼真,而且符合世界物理規則的事物至關重要,讓我們看到了人工智慧創造複雜、動態視覺內容的潛力。

SORA為生成模型設定了新標準。 這種方法可能會激發開源社群嘗試和提高視覺模式的能力,以推動新一代生成模型的開發,這些模型突破了創造力和現實主義的界限。

SORA的旅程才剛剛開始,正如OpenAI所說,“擴充套件視訊生成模型是構建物理世界通用模擬器的一條有前途的道路。

Sora的方法將最新的人工智慧研究與現實世界的應用相結合,預示著生成模型的光明未來。 隨著這些技術的不斷發展,它們有望重新定義我們與數字內容的互動,使高保真、動態**的建立變得更加容易和通用。

相關問題答案

    OpenAI Sora 的工作原理 對工作場所的影響

    在過去的一周裡,OpenAI的SORA引起了大家的極大關注,我將普及其工作原理,並分析其對工作場所的影響。SORA 是一種先進的 AI 模型,可以通過簡單的文字輸入生成逼真的場景。以下是 SORA AI Generate Photoreal 的工作原理和主要功能。工作原理 SORA AI 建立在擴散...

    OpenAI Sora的啟陽科技營銷機會

    OpenAI 最近推出了一種名為 SORA 的新 AI 模型。 年 月 日,OpenAI 在其部落格文章中表示,它可以從簡短的文字提示中生成 逼真 和 富有想象力 的 秒 能夠生成具有多個角色 特定型別動作和詳細背景細節的場景。OpenAI表示,該模型不僅可以理解使用者在提示中要求的內容,還可以理解...

    時空的秘密 穿越時空的探險家

    簡介 你有沒有夢想過穿越時空,探索未知?在這個神秘的 中,我們將帶你領略時空的奇妙世界。在這裡,您將了解所有關於時空交集的資訊,並有機會親身體驗一次令人驚訝的時空之旅。時空隔行掃瞄原理 時空交錯是指空間和時間的融合,扭曲了現實世界。根據愛因斯坦的相對論,當乙個物體以接近光速的速度運動時,時間會減慢,...

    時空之輪:穿越時空的英雄拯救美麗

    悟飯遊戲廳 年,史克威爾艾尼克斯在SFC上發布了一部傑作 時空之輪 時空之輪 是當時典型的日式RPG作品,它邀請了坂口博信和堀井優。二是鳥山明 光田康典 植松信夫等當時最優秀的漫畫家為其作畫,並集聚了SQUARE和ENIX公司的超級精英為其創作,坂口博信的導演 堀井雄二的劇本 鳥山明的角色設計,甚至...

    花朵的時間旅行

    花的語言 崔瑩著,由 生活 閱讀 新知識 出版。田繼如.與花有關的詩歌有很多,而這些詩歌,無論是寫在英國世紀詩人華茲華斯的 水仙 中,所以我的心裡充滿了幸福,我與水仙共舞 還是中國宋代女詩人李清釗的 風生在塵埃中,芬芳的花朵枯竭了,我厭倦了日夜梳頭。物是人,什麼都不用做,就想先哭 所有的蠟燭都照亮了...