Gemini 的開源版本誕生了！全能多模態模型Emu2上榜熱點，多工重新整理SOTA

編輯：桃子好睏。

最強全能多式聯運模型來了！就在近日，智源教育學院發布了開源行業的雙子座EMU2，一氣呵成重新整理了多個SOTA。

在過去的 18 個月裡，我們看到了 AI 領域的許多重要時刻。

LLAMA、ALPACA等眾多開源模型競相發布，這不僅可以媲美閉源模型的效能，也為大家提供了投身AI的機會

2024年8月，Stable Diffusion發布，讓Dall·e的神秘光環不再遙不可及，每個人都能召喚出屬於自己的數字達文西;

2023 年 2 月，Meta 的 LLAMA 及其隨後的語言模型大軍讓 ChatGPT 的獨角戲成為一場星光熠熠的表演

2023 年 12 月 6 日，Google Deepmind 推出了多模態超級巨星 Gemini。

僅僅兩周後，智源教育學院發布了其最新一代的生成式多模態開源模型EMU2。

很快，這項在開源多模態領域的工作引起了國際社會的廣泛關注，並登上了HN熱門榜單的第三位。

EMU2 在 HackerNews 列表中引起了人們的關注。

擁抱臉大V AK**。

據悉，該型號的輕量級版本即將推出，允許技術玩家在本地執行。

EMU2通過大規模自回歸生成式多模態預訓練，顯著推動了多模態情境學習能力的突破。

EMU2在小樣本多模態理解任務中大大超越了Flamingo-80B、IDEFICS-80B等主流多模態預訓練大模型，在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多項小樣本理解任務、視覺問答、主體驅動影象生成等方面均達到最佳效能。

EMU2 模型與 Flamingo、GPT-4V 和 Gemini 等模型的功能比較一目了然。

Gemini 的開源版本即將到來

與 2023 年 7 月發布的第一代多模態到多模態 EMU 模型相比，EMU2 使用更簡單的建模框架，訓練解碼器從編碼器的語義空間重建影象，並將模型縮放到 37B 引數，以實現模型能力和通用性的突破。

同時，仍然使用大量的圖、文字、**序列，建立基於統一自回歸建模的多模態預訓練框架，將影象、**等模態的標記序列直接與文字標記序列交錯輸入到模型中進行訓練。

值得一提的是，EMU2是目前最大的開源生成式多模態模型，基於EMU2微調的EMU2-CHAT和EMU2-Gen模型分別是功能最強大的視覺理解模型和能力最強的視覺生成模型

- emu2-chat它可以準確理解最佳指令，從而實現更好的資訊感知、意圖理解和決策規劃。

- emu2-gen它可以接受影象、文字和交錯位置的序列作為輸入，以實現靈活、可控、高質量的影象和**生成。

現在，EMU2 的模型已經開源，並且有乙個 demo 可供試用。

專案：型號：

demo：

多次效能重新整理 SOTA

通過對多模態理解和生成能力的定量評估，EMU2在少樣本理解、視覺問答、主觀影象生成等多個任務中均達到最佳效能。

在小樣本評估中，EMU2 在各種場景中明顯優於 Flamingo-80B，例如 127分。

指令微調後，EMU2 可以自由地回答影象和輸入的問答，並在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多個影象和問答評估集上實現最佳效能，以統一模型。

在零樣本 Dreambench 主觀駕駛影象生成測試中，與之前的方法相比有明顯的改進，例如 71%，比 Microsoft 的 KOSMOS-G 恐龍得分高出 7 分2%。

多模態情境學習

生成式預訓練完成後，EMU2 具備全面而強大的多模態情境學習能力。基於幾個例子，該模型可以用來完成相應的理解和生成任務。

例如，在上下文中描述影象，在上下文中理解視覺提示（覆蓋影象上的紅色圓圈），在上下文中生成類似樣式的影象，在上下文中生成相應主題的影象，等等。

強大的多模態理解

對對話資料指令進行微調後，emu2-chat可以準確理解**指令，更好地完成多模態理解任務。

例如，推斷影象中的特徵、讀取符號以提供指導、根據需要提取和估計指定屬性、回答簡單的專業主題問題等。

基於任意提示序列的影象生成

emu2-gen已經過高質量影象的微調，可以接受影象、文字和位置的序列作為輸入，以生成相應的高質量影象，這種靈活性帶來了高度的可控性。

例如，在指定位置生成熊和向日葵，並指定身體：

在指定位置、給定主體、指定樣式生成寵物狗和小鴯鶓的合影影象：

基於**序列的生成示例：

根據任意提示序列的 ** 生成

此外，emu2 支援基於任意提示序列的 ** 生成。

基於文字、交錯和位置交錯序列，可以生成相應的高質量。

統一的生成式預訓練

EMU2的訓練方法是多模態序列的生成預訓練。

使用統一的自回歸建模方法，下乙個視覺或文字令牌基於當前生成的令牌。

與EMU1相比，EMU2使用更簡單的建模框架，訓練更好的解碼器從特徵中重建原始影象，並將模型縮放到37B引數。

Gemini 的開源版本誕生了！全能多模態模型Emu2上榜熱點，多工重新整理SOTA

相關問題答案

OA開源版是提公升企業效率的最佳選擇

螞蟻集團開源OpenASCE，大規模全鏈路因果關係習系統

4 0,25場不敗！歐洲第一匹黑馬誕生，22勝83球，皇馬貪婪年輕元帥

《模擬人生4》學習習版完整DLC綜合版如何使用正版模擬工坊

鬥魚孵化全面揭秘小生命誕生，你知道多久嗎？

Gemini 的開源版本誕生了！全能多模態模型Emu2上榜熱點，多工重新整理SOTA

相關問題答案

OA開源版是提公升企業效率的最佳選擇

螞蟻集團開源OpenASCE，大規模全鏈路因果關係習系統

4 0,25場不敗！ 歐洲第一匹黑馬誕生，22勝83球，皇馬貪婪年輕元帥

《模擬人生4》學習習版完整DLC綜合版 如何使用正版模擬工坊

鬥魚孵化全面揭秘小生命誕生，你知道多久嗎？

4 0,25場不敗！歐洲第一匹黑馬誕生，22勝83球，皇馬貪婪年輕元帥

《模擬人生4》學習習版完整DLC綜合版如何使用正版模擬工坊