Mistral AI 發布了其最新的 mixtral 8x7b 模型,這是乙個具有開放權重的稀疏專家模型 (SMOE),能夠處理 32,000 個代幣上下文,在大多數基準測試中優於 LLAMA 2 70B(700 億個引數)和 GPT 35 個模型和 Apache 20 授權開源。
mixtral 8x7b 屬於稀疏混合專家模型,是一種適合構建大型高效神經網路的深度 習 架構。 這類模型中的乙個重要概念是專家系統,它指的是網路中特定的子模組或子網路,每個專家都擅長處理特定型別的輸入資料或任務。
稀疏混合EA模型的稀疏性意味著每個輸入只會觸發少量EA交易,即並非每個輸入都需要由所有EA進行處理,因此可以有效降低計算成本。 在稀疏混合專家模型中,經過訓練的路由器可以根據輸入資料的特徵將任務分配給最合適的專家,而在混合 8x7b 模型中,路由器會根據接收到的任務確定兩個最相關的專家,在兩個專家處理完輸入後,專家輸出將整合到最終輸出中。
稀疏混合專家模型通過結合不同專家的知識和技能,以稀疏的方式處理資料,同時在處理大量引數和資料的同時保持合理的計算成本範圍,從而提高了大型神經網路的效率和效能。
mixtral 8x7b 模型總共有 467 億個引數,雖然引數總數很大,但模型在處理每個 token 時只會選擇和使用其中的 129 億個,這是稀疏性的體現,而 mixtral 8x7b 模型不會每次都啟動所有引數。 而且由於該模型一次只使用一些引數,因此處理速度和計算成本相當於只有 129 億個引數的模型。
根據官方資料,相較於同樣開源的 LLAMA 2 70B 模型,MIXTRAL 8X7B 在大多數基準測試中表現更好,推理速度是 LLAMA 2 70B 的 6 倍,MIXTRAL 8X7B 在大多數標準基準測試中的表現也和 GPT3 一樣好5 相當甚至超過。 在幻覺和偏見方面,Mixtral 比 Llama 2 更逼真,偏見更少。
目前能夠處理英語、法語、義大利語、德語和西班牙語,mixtral 8x7b 在生成程式方面非常出色**。 mixtral 8x7b 的微調指令遵循模型 mixtral 8x7b 指令,而 83 分,成為目前最好的開源指令跟隨模型,效能和 GPT 35 相當。