Mistral AI 開源了採用 SMoE 架構的 Mixtral 8x7B 模型,整體效能優秀

Mondo 科技 更新 2024-01-29

Mistral AI 發布了其最新的 mixtral 8x7b 模型,這是乙個具有開放權重的稀疏專家模型 (SMOE),能夠處理 32,000 個代幣上下文,在大多數基準測試中優於 LLAMA 2 70B(700 億個引數)和 GPT 35 個模型和 Apache 20 授權開源。

mixtral 8x7b 屬於稀疏混合專家模型,是一種適合構建大型高效神經網路的深度 習 架構。 這類模型中的乙個重要概念是專家系統,它指的是網路中特定的子模組或子網路,每個專家都擅長處理特定型別的輸入資料或任務。

稀疏混合EA模型的稀疏性意味著每個輸入只會觸發少量EA交易,即並非每個輸入都需要由所有EA進行處理,因此可以有效降低計算成本。 在稀疏混合專家模型中,經過訓練的路由器可以根據輸入資料的特徵將任務分配給最合適的專家,而在混合 8x7b 模型中,路由器會根據接收到的任務確定兩個最相關的專家,在兩個專家處理完輸入後,專家輸出將整合到最終輸出中。

稀疏混合專家模型通過結合不同專家的知識和技能,以稀疏的方式處理資料,同時在處理大量引數和資料的同時保持合理的計算成本範圍,從而提高了大型神經網路的效率和效能。

mixtral 8x7b 模型總共有 467 億個引數,雖然引數總數很大,但模型在處理每個 token 時只會選擇和使用其中的 129 億個,這是稀疏性的體現,而 mixtral 8x7b 模型不會每次都啟動所有引數。 而且由於該模型一次只使用一些引數,因此處理速度和計算成本相當於只有 129 億個引數的模型。

根據官方資料,相較於同樣開源的 LLAMA 2 70B 模型,MIXTRAL 8X7B 在大多數基準測試中表現更好,推理速度是 LLAMA 2 70B 的 6 倍,MIXTRAL 8X7B 在大多數標準基準測試中的表現也和 GPT3 一樣好5 相當甚至超過。 在幻覺和偏見方面,Mixtral 比 Llama 2 更逼真,偏見更少。

目前能夠處理英語、法語、義大利語、德語和西班牙語,mixtral 8x7b 在生成程式方面非常出色**。 mixtral 8x7b 的微調指令遵循模型 mixtral 8x7b 指令,而 83 分,成為目前最好的開源指令跟隨模型,效能和 GPT 35 相當。

相關問題答案

    MistralAI 發布 Mistral 8x7B MoE,一種基於混合專家技術的大型語言模型

    法國大型模型初創公司Mistralai於今年月發布了Mistral B模型,號稱是億引數尺度模型中最強大的模型。由於其商業友好的開源協議,MISTRAL B引起了很多關注。就在昨天,Mistralai 突然在推特上發了一條 Magnet 的鏈結,後來才發現,這是乙個基於混合專家的大模型。混合專家網路...

    AI Horizons Mistral AI 發布 87GB 開源 MoE 模型 Soul,並推出大模型 SoulX

    ...

    Facebook 的開源 StyleX 用 JavaScript 編寫 CSS

    Meta 前身為 Facebook 開源了乙個新的 CSS in JS 庫 StyleX。github位址 正式地,StyleX 是乙個富有表現力 確定性 可靠且可擴充套件的樣式系統。它通過使用編譯時工具混合了靜態 CSS 的效能和可擴充套件性。此外,StyleX 不僅僅是乙個基於編譯器的 css ...

    開源12天,斬獲抱臉OpenCompass等權威榜單冠軍,通義千文瘋狂甩駱駝2成新標桿

    聰明的東西 作者 香草 編輯 沙漠之影 國產模式又出圈了嗎?智東在月日表示,近日,阿里雲同益千問的億引數模型QWEN B擊敗了LLAMA 等國內外開源大模型登上全球最大模特社群的頂端hugging face之開源大模型排行榜 開啟 LLM 排行榜 Hugging Face 開源大模型排行榜,資料截至...

    Meta 和 IBM 聯手開源 AI

    由於缺乏監管,對人工智慧發展和安全的擔憂繼續迅速增長。最新的行業解決方案計畫來自 Meta 和 IBM。這兩家公司成立了乙個名為人工智慧聯盟的組織。人工智慧聯盟的使命是 培養開放社群,使開發人員和研究人員能夠加速人工智慧領域負責任的創新 它被定義為 建立科學嚴謹性 信任 安全 保障 多樣性和經濟競爭...