編輯:桃子好睏。
最強全能多式聯運模型來了!就在近日,智源教育學院發布了開源行業的雙子座EMU2,一氣呵成重新整理了多個SOTA。
在過去的 18 個月裡,我們看到了 AI 領域的許多重要時刻。
LLAMA、ALPACA等眾多開源模型競相發布,這不僅可以媲美閉源模型的效能,也為大家提供了投身AI的機會
2024年8月,Stable Diffusion發布,讓Dall·e的神秘光環不再遙不可及,每個人都能召喚出屬於自己的數字達文西;
2023 年 2 月,Meta 的 LLAMA 及其隨後的語言模型大軍讓 ChatGPT 的獨角戲成為一場星光熠熠的表演
2023 年 12 月 6 日,Google Deepmind 推出了多模態超級巨星 Gemini。
僅僅兩周後,智源教育學院發布了其最新一代的生成式多模態開源模型EMU2。
很快,這項在開源多模態領域的工作引起了國際社會的廣泛關注,並登上了HN熱門榜單的第三位。
EMU2 在 HackerNews 列表中引起了人們的關注。
擁抱臉大V AK**。
據悉,該型號的輕量級版本即將推出,允許技術玩家在本地執行。
EMU2通過大規模自回歸生成式多模態預訓練,顯著推動了多模態情境學習能力的突破。
EMU2在小樣本多模態理解任務中大大超越了Flamingo-80B、IDEFICS-80B等主流多模態預訓練大模型,在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多項小樣本理解任務、視覺問答、主體驅動影象生成等方面均達到最佳效能。
EMU2 模型與 Flamingo、GPT-4V 和 Gemini 等模型的功能比較一目了然。
Gemini 的開源版本即將到來
與 2023 年 7 月發布的第一代多模態到多模態 EMU 模型相比,EMU2 使用更簡單的建模框架,訓練解碼器從編碼器的語義空間重建影象,並將模型縮放到 37B 引數,以實現模型能力和通用性的突破。
同時,仍然使用大量的圖、文字、**序列,建立基於統一自回歸建模的多模態預訓練框架,將影象、**等模態的標記序列直接與文字標記序列交錯輸入到模型中進行訓練。
值得一提的是,EMU2是目前最大的開源生成式多模態模型,基於EMU2微調的EMU2-CHAT和EMU2-Gen模型分別是功能最強大的視覺理解模型和能力最強的視覺生成模型
- emu2-chat它可以準確理解最佳指令,從而實現更好的資訊感知、意圖理解和決策規劃。
- emu2-gen它可以接受影象、文字和交錯位置的序列作為輸入,以實現靈活、可控、高質量的影象和**生成。
現在,EMU2 的模型已經開源,並且有乙個 demo 可供試用。
專案: 型號:
demo:
多次效能重新整理 SOTA
通過對多模態理解和生成能力的定量評估,EMU2在少樣本理解、視覺問答、主觀影象生成等多個任務中均達到最佳效能。
在小樣本評估中,EMU2 在各種場景中明顯優於 Flamingo-80B,例如 127分。
指令微調後,EMU2 可以自由地回答影象和輸入的問答,並在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多個影象和問答評估集上實現最佳效能,以統一模型。
在零樣本 Dreambench 主觀駕駛影象生成測試中,與之前的方法相比有明顯的改進,例如 71%,比 Microsoft 的 KOSMOS-G 恐龍得分高出 7 分2%。
多模態情境學習
生成式預訓練完成後,EMU2 具備全面而強大的多模態情境學習能力。 基於幾個例子,該模型可以用來完成相應的理解和生成任務。
例如,在上下文中描述影象,在上下文中理解視覺提示(覆蓋影象上的紅色圓圈),在上下文中生成類似樣式的影象,在上下文中生成相應主題的影象,等等。
強大的多模態理解
對對話資料指令進行微調後,emu2-chat可以準確理解**指令,更好地完成多模態理解任務。
例如,推斷影象中的特徵、讀取符號以提供指導、根據需要提取和估計指定屬性、回答簡單的專業主題問題等。
基於任意提示序列的影象生成
emu2-gen已經過高質量影象的微調,可以接受影象、文字和位置的序列作為輸入,以生成相應的高質量影象,這種靈活性帶來了高度的可控性。
例如,在指定位置生成熊和向日葵,並指定身體:
在指定位置、給定主體、指定樣式生成寵物狗和小鴯鶓的合影影象:
基於**序列的生成示例:
根據任意提示序列的 ** 生成
此外,emu2 支援基於任意提示序列的 ** 生成。
基於文字、交錯和位置交錯序列,可以生成相應的高質量。
統一的生成式預訓練
EMU2的訓練方法是多模態序列的生成預訓練。
使用統一的自回歸建模方法,下乙個視覺或文字令牌基於當前生成的令牌。
與EMU1相比,EMU2使用更簡單的建模框架,訓練更好的解碼器從特徵中重建原始影象,並將模型縮放到37B引數。