關於已知和未知的索拉

2 月 16 日，OpenAI 發布了 60 秒**的多個人工智慧作品，首次向世界展示了 OpenAI 的文字轉**工具 SORA 的結果。它以日語中的“天空”一詞命名，意思是“無限的創造潛力”。

文字到**的 AI 工具並不是全新的。 Runway 發布的 Runway Gen-1 和 Gen-2、Google 的 Imagen Video 和 Phenaki、Meta 的 Make a Video 以及類似的 AI 文字到影象轉換工具並不少見。

以前的大多數工具都需要逐幀生產每張紙，然後將它們連線在一起。這種技術的缺點是，雖然每個**之間可能共享相同的關鍵字，但可能會造成非常不同的生成結果，因此生成的**的長度受到嚴格限制，一旦過長，就可能導致**字元變色或其他不連貫的問題。

與上述工具相比，SORA的主要優勢在於它代表了長度和一致性的重大突破。根據OpenAI發布的技術文件和一些專家的解釋，SORA採用的“時空補丁”技術，允許其在閱讀文字需求後，將預定的**切割成多個具有時空資訊的小部分，並分別生成。

OpenAI 技術論文中“時空修補”技術的示意圖。

這使得SORA能夠以更精細的方式確保一致性，並大大豐富其中的細節。在SORA發布的模擬中，這種連貫性的好處包括更好地模擬角色與環境之間的簡單互動，向前和向後擴充套件，以及將兩者融合成乙個連貫形式的能力。

除此之外，SORA在物理建模和構圖方面表現更好。與以往將輸入影象裁剪為固定格式的工具不同，SORA可以直接以原始比例和解像度生成影象，這意味著SORA可以更好地掌握主要內容，並從不同角度模擬同一物體的動作。

OpenAI 發布的乙個演示的截圖，並附有相應的說明“美麗的錫拉丘茲市東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天，並在附近的攤位購物。美麗的櫻花花瓣在雪花的風中飄揚”。

但當外界驚呼它的能力時，仍然有很多未知數。例如，目前尚不確定 Sora 是否會支援英語以外的語言，或者何時會向更多人開放。目前只有一小部分“視覺藝術家、設計師和電影製作人”以及特定的安全測試人員被授予訪問許可權。

官網上的技術文件只簡單解釋了該技術的一般原理，提到了使用GPT和Dalle-3等以前的技術進行文字分析，但沒有像GPT-3那樣在**中發布訓練集和模型結構。

這種保密性似乎已經成為大公司最近發布大模型新版本的標準動作。谷歌在發布 Sora 的同一天推出了 Gemini 15 公升級版，也為一小群開發人員和企業客戶提供有限預覽版。史丹福大學基礎模型中心（Center for Foundational Models）對十個主要人工智慧模型的分析顯示，沒有乙個主要的基礎模型開發人員提供足夠的透明度。

OpenAI 對不發布工具的解釋和更多細節是，它還需要減少生成的 ** 中的錯誤資訊、仇恨內容和偏見，並且所有生成的 ** 都有水印，但水印也可以去除。鑑於短期已經可以對政治產生重大影響，人工智慧行業的監管壓力將比以往任何時候都高。（實習生尚毅）。

關於已知和未知的索拉

相關問題答案

關於 Sora 的其他一些想法

燃燒的威爾和野鄉村羅蘋目前知道什麼時尚裝備

介紹 OpenAI 的 Sora

面對OpenAI的Sora技術顛覆，中國AI領域這些年發展了什麼？

OpenAI 的 Sora 技術解釋