Gemini 的開源版本誕生了!全能多模態模型Emu2上榜熱點,多工重新整理SOTA

Mondo 科技 更新 2024-01-31

編輯:桃子好睏。

最強全能多式聯運模型來了!就在近日,智源教育學院發布了開源行業的雙子座EMU2,一氣呵成重新整理了多個SOTA。

在過去的 18 個月裡,我們看到了 AI 領域的許多重要時刻。

LLAMA、ALPACA等眾多開源模型競相發布,這不僅可以媲美閉源模型的效能,也為大家提供了投身AI的機會

2024年8月,Stable Diffusion發布,讓Dall·e的神秘光環不再遙不可及,每個人都能召喚出屬於自己的數字達文西;

2023 年 2 月,Meta 的 LLAMA 及其隨後的語言模型大軍讓 ChatGPT 的獨角戲成為一場星光熠熠的表演

2023 年 12 月 6 日,Google Deepmind 推出了多模態超級巨星 Gemini。

僅僅兩周後,智源教育學院發布了其最新一代的生成式多模態開源模型EMU2。

很快,這項在開源多模態領域的工作引起了國際社會的廣泛關注,並登上了HN熱門榜單的第三位。

EMU2 在 HackerNews 列表中引起了人們的關注。

擁抱臉大V AK**。

據悉,該型號的輕量級版本即將推出,允許技術玩家在本地執行。

EMU2通過大規模自回歸生成式多模態預訓練,顯著推動了多模態情境學習能力的突破。

EMU2在小樣本多模態理解任務中大大超越了Flamingo-80B、IDEFICS-80B等主流多模態預訓練大模型,在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多項小樣本理解任務、視覺問答、主體驅動影象生成等方面均達到最佳效能。

EMU2 模型與 Flamingo、GPT-4V 和 Gemini 等模型的功能比較一目了然。

Gemini 的開源版本即將到來

與 2023 年 7 月發布的第一代多模態到多模態 EMU 模型相比,EMU2 使用更簡單的建模框架,訓練解碼器從編碼器的語義空間重建影象,並將模型縮放到 37B 引數,以實現模型能力和通用性的突破。

同時,仍然使用大量的圖、文字、**序列,建立基於統一自回歸建模的多模態預訓練框架,將影象、**等模態的標記序列直接與文字標記序列交錯輸入到模型中進行訓練。

值得一提的是,EMU2是目前最大的開源生成式多模態模型,基於EMU2微調的EMU2-CHAT和EMU2-Gen模型分別是功能最強大的視覺理解模型和能力最強的視覺生成模型

- emu2-chat它可以準確理解最佳指令,從而實現更好的資訊感知、意圖理解和決策規劃。

- emu2-gen它可以接受影象、文字和交錯位置的序列作為輸入,以實現靈活、可控、高質量的影象和**生成。

現在,EMU2 的模型已經開源,並且有乙個 demo 可供試用。

專案: 型號:

demo:

多次效能重新整理 SOTA

通過對多模態理解和生成能力的定量評估,EMU2在少樣本理解、視覺問答、主觀影象生成等多個任務中均達到最佳效能。

在小樣本評估中,EMU2 在各種場景中明顯優於 Flamingo-80B,例如 127分。

指令微調後,EMU2 可以自由地回答影象和輸入的問答,並在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多個影象和問答評估集上實現最佳效能,以統一模型。

在零樣本 Dreambench 主觀駕駛影象生成測試中,與之前的方法相比有明顯的改進,例如 71%,比 Microsoft 的 KOSMOS-G 恐龍得分高出 7 分2%。

多模態情境學習

生成式預訓練完成後,EMU2 具備全面而強大的多模態情境學習能力。 基於幾個例子,該模型可以用來完成相應的理解和生成任務。

例如,在上下文中描述影象,在上下文中理解視覺提示(覆蓋影象上的紅色圓圈),在上下文中生成類似樣式的影象,在上下文中生成相應主題的影象,等等。

強大的多模態理解

對對話資料指令進行微調後,emu2-chat可以準確理解**指令,更好地完成多模態理解任務。

例如,推斷影象中的特徵、讀取符號以提供指導、根據需要提取和估計指定屬性、回答簡單的專業主題問題等。

基於任意提示序列的影象生成

emu2-gen已經過高質量影象的微調,可以接受影象、文字和位置的序列作為輸入,以生成相應的高質量影象,這種靈活性帶來了高度的可控性。

例如,在指定位置生成熊和向日葵,並指定身體:

在指定位置、給定主體、指定樣式生成寵物狗和小鴯鶓的合影影象:

基於**序列的生成示例:

根據任意提示序列的 ** 生成

此外,emu2 支援基於任意提示序列的 ** 生成。

基於文字、交錯和位置交錯序列,可以生成相應的高質量。

統一的生成式預訓練

EMU2的訓練方法是多模態序列的生成預訓練。

使用統一的自回歸建模方法,下乙個視覺或文字令牌基於當前生成的令牌。

與EMU1相比,EMU2使用更簡單的建模框架,訓練更好的解碼器從特徵中重建原始影象,並將模型縮放到37B引數。

相關問題答案

    OA開源版是提公升企業效率的最佳選擇

    phpoa!國內首家專業OA辦公軟體 OA系統 政府辦公開源OA系統服務商,採用PHP MySQL開源語言,一直致力於應用管理軟體基層研發,先後推出了企業OA OA 集團OA SaaS版OA等應用平台!在當今的資訊時代,企業管理的複雜性與日俱增。為了應對這一挑戰,越來越多的公司正在尋找一種高效的解決...

    螞蟻集團開源OpenASCE,大規模全鏈路因果關係習系統

    當地時間月日,為期天的AI國際峰會NePIPS 神經資訊處理系統 在美國路易斯安那州紐奧良開幕。Neurips是人工智慧和機器習領域的世界頂級會議,與ICML一起被譽為人工智慧領域難度最大 級別最高 最具影響力的會議。大會首日,中國網際網絡公司螞蟻集團受邀舉辦主題為 面向行業垂直領域的知識增強AI ...

    4 0,25場不敗! 歐洲第一匹黑馬誕生,22勝83球,皇馬貪婪年輕元帥

    本賽季的勒沃庫森也成為了一支備受球迷關注的球隊,成為了歐洲第一匹黑馬球隊。勒沃庫森本賽季的成績也很糟糕,在這場比賽之前已經保持了場不敗。而在這場比賽對陣波鴻的比賽中,球隊也希望全力以赴,爭取達到場不敗的紀錄。比賽第分鐘,希克進入禁區後獲得一對一機會。希克直接被對手放倒,裁判也上前直接判罰點球,希克冷...

    《模擬人生4》學習習版完整DLC綜合版 如何使用正版模擬工坊

    Rubao 使用 SGLY 共享的修飾符,即最新版本 ,包括從原版到現在的所有DLC 模擬人生 本體 來上班 一起玩得開心 城市生活 貓狗 春夏秋冬 夢幻起飛 海島生活 趣味大學 綠色生活 雪鄉度假 露天度假 豪華派對 完美露台 水療天 冰涼廚房 令人毛骨悚然 電影樂趣 浪漫花園 外出就餐 兒童遊樂...

    鬥魚孵化全面揭秘小生命誕生,你知道多久嗎?

    在家庭魚缸中,鬥魚以其獨特的美感和活力吸引了許多愛好者。當你看到鬥魚在水中優雅地游動時,你可能會想 鬥魚卵孵化成小魚需要多長時間?本文將揭開鬥魚孵化的神秘面紗,讓您了解此生誕生的奇妙過程。.鬥魚蛋的孵化時間。鬥魚卵通常孵化約 周。具體時間取決於多種因素,如鬥魚的種類 水溫 水質等。在合適的條件下,鬥...