2 月 16 日,OpenAI 發布了 60 秒**的多個人工智慧作品,首次向世界展示了 OpenAI 的文字轉**工具 SORA 的結果。 它以日語中的“天空”一詞命名,意思是“無限的創造潛力”。
文字到**的 AI 工具並不是全新的。 Runway 發布的 Runway Gen-1 和 Gen-2、Google 的 Imagen Video 和 Phenaki、Meta 的 Make a Video 以及類似的 AI 文字到影象轉換工具並不少見。
以前的大多數工具都需要逐幀生產每張紙,然後將它們連線在一起。 這種技術的缺點是,雖然每個**之間可能共享相同的關鍵字,但可能會造成非常不同的生成結果,因此生成的**的長度受到嚴格限制,一旦過長,就可能導致**字元變色或其他不連貫的問題。
與上述工具相比,SORA的主要優勢在於它代表了長度和一致性的重大突破。 根據OpenAI發布的技術文件和一些專家的解釋,SORA採用的“時空補丁”技術,允許其在閱讀文字需求後,將預定的**切割成多個具有時空資訊的小部分,並分別生成。
OpenAI 技術論文中“時空修補”技術的示意圖。
這使得SORA能夠以更精細的方式確保一致性,並大大豐富其中的細節。 在SORA發布的模擬中,這種連貫性的好處包括更好地模擬角色與環境之間的簡單互動,向前和向後擴充套件,以及將兩者融合成乙個連貫形式的能力。
除此之外,SORA在物理建模和構圖方面表現更好。 與以往將輸入影象裁剪為固定格式的工具不同,SORA可以直接以原始比例和解像度生成影象,這意味著SORA可以更好地掌握主要內容,並從不同角度模擬同一物體的動作。
OpenAI 發布的乙個演示的截圖,並附有相應的說明“美麗的錫拉丘茲市東京熙熙攘攘。 鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,並在附近的攤位購物。 美麗的櫻花花瓣在雪花的風中飄揚”。
但當外界驚呼它的能力時,仍然有很多未知數。 例如,目前尚不確定 Sora 是否會支援英語以外的語言,或者何時會向更多人開放。 目前只有一小部分“視覺藝術家、設計師和電影製作人”以及特定的安全測試人員被授予訪問許可權。
官網上的技術文件只簡單解釋了該技術的一般原理,提到了使用GPT和Dalle-3等以前的技術進行文字分析,但沒有像GPT-3那樣在**中發布訓練集和模型結構。
紐約大學教授謝森寧指出,SORA可能使用了他和另一位研究人員開發的技術模型,也有理論認為SORA使用虛幻引擎5建立了一些訓練資料。 OpenAI 一直拒絕透露系統學到了多少**或 ***,只是表明訓練包括公共和版權所有者的許可。
這種保密性似乎已經成為大公司最近發布大模型新版本的標準動作。 谷歌在發布 Sora 的同一天推出了 Gemini 15 公升級版,也為一小群開發人員和企業客戶提供有限預覽版。 史丹福大學基礎模型中心(Center for Foundational Models)對十個主要人工智慧模型的分析顯示,沒有乙個主要的基礎模型開發人員提供足夠的透明度。
OpenAI 對不發布工具的解釋和更多細節是,它還需要減少生成的 ** 中的錯誤資訊、仇恨內容和偏見,並且所有生成的 ** 都有水印,但水印也可以去除。 鑑於短期已經可以對政治產生重大影響,人工智慧行業的監管壓力將比以往任何時候都高。 (實習生尚毅)。