隨著 Mixtral 8x7b(公告、模型卡)的推出,乙個名為混合專家模型 (MOES) 的 Transformer 模型在開源 AI 社群中引起了廣泛關注。 在這篇博文中,我們將深入探討 MOES 的核心元件、訓練方法以及推理過程中需要考慮的各種因素。
讓我們開始吧!
混合專家模型 (MOES):
與密集模型相比,預訓練速度更快與具有相同引數數量的模型相比,它具有更快的引數推理速度是的大量視訊記憶體,因為所有專家系統都需要載入到記憶體中微調存在許多挑戰,但最近的研究表明,進行了混合專家模型指令調優具有很大的潛力。讓我們開始吧!
模型大小是提高模型效能的關鍵因素之一。 在計算資源預算有限的情況下,用較少的訓練步驟訓練較大的模型通常比訓練具有較多步驟的較小模型更有效。
混合專家模型 (MOE) 的乙個顯著優勢是它們能夠使用比密集模型所需的計算資源少得多的計算資源進行有效的預訓練。 這意味著,您可以使用相同的計算預算顯著擴充套件模型或資料集。 特別是在預訓練階段,混合專家模型通常能夠比密集模型更快地達到相同的質量水平。
那麼,究竟什麼是混合專家模型(MOE)?作為基於 Transformer 架構的模型,混合專家模型由兩個主要元件組成:
稀疏 MOE 層:這些層取代了傳統 Transformer 模型中的前饋網路 (FFN) 層。 MOE 層包含多個“專家”(例如,8 個),每個專家本身都是乙個獨立的神經網路。 在實踐中,這些專家通常是前饋網路 (FFN),但它們也可以是更複雜的網路結構,甚至是 MOE 層本身,從而形成分層的 MOE 結構。 門控網路或路由:此部分用於決定將哪些令牌傳送給哪個專家。 例如,在下圖中,標記“more”可能被傳送給第二個專家,而標記“parameters”可能被傳送到第乙個專家。 有時,甚至可以將令牌傳送給多個專家。 令牌的路由方式是使用 MOE 的乙個關鍵點,因為路由器由學習的引數組成,並與網路的其餘部分一起進行預訓練。
開關變壓器中的Moe層總而言之,在混合專家模型(MOE)中,我們將傳統Transformer模型中的每個前饋網路(FFN)層替換為MOE層,其中MOE層由兩個核心部分組成:門控網路和多個專家。
雖然混合專家模型 (MOE) 具有幾個顯著優勢,例如與密集模型相比,預訓練效率更高、推理速度更快,但它們也帶來了一些挑戰:
培訓挑戰:MOEs雖然可以實現更高效的計算預訓練,但在微調階段往往面臨泛化能力不足的問題,容易長期過擬合。 推理挑戰:MOE 模型可能具有大量引數,但在推理過程中僅使用其中的乙個子集,這使得它們的推理速度比具有相同引數數量的密集模型更快。 但是,此模型需要將所有引數載入到記憶體中,因此對記憶體的要求非常高。 對於像 Mixtral 8x7b 這樣的 MOE,需要足夠的 VRAM 來容納具有 47b 引數的密集模型。 之所以是 47b 而不是 8 x 7b = 56b,是因為在 MOE 模型中,只有 FFN 層被認為是獨立的專家,而模型的其他引數是共享的。 此外,假設每個令牌只使用兩個專家,那麼推理速度(以 flops 計算)類似於使用 12b 模型(而不是 14b 模型),因為當它執行 2x7b 矩陣乘法計算時,某些層是共享的。 現在我們了解了 MOE 的基本概念,讓我們來探討推動此類模型發展的研究。
混合專家模型 (MOE) 的想法起源於 1991 年的本地專家自適應混合。 這個概念類似於整合學習方法,旨在為由多個獨立網路組成的系統建立治理機制。 在這樣的系統中,每個網路(稱為“專家”)處理訓練樣本的不同子集,專注於輸入空間的特定區域。 那麼,您如何選擇哪位專家來處理特定的輸入呢?這就是門控網路發揮作用的地方,它決定了分配給每個專家的權重。 在培訓期間,這些專家和門控網路同時接受培訓,以優化其效能和決策能力。
在2024年至2024年期間,兩個獨立的研究領域為混合專家模型(MOE)的後續發展做出了重大貢獻:
元件專家:在傳統的 MOE 設定中,整個系統由乙個門控網路和多個專家組成。 在支援向量機(SVMS)、高斯過程和其他方法的研究中,MOE通常被視為整個模型的一部分。 然而,Eigen、Ranzato 和 Ilya 的研究探索了 MOE 作為更深層次網路的乙個組成部分。 這種方法允許將 MOE 嵌入到多層網路的一層中,使模型既大又高效。 條件計算:傳統的神經網路通過每一層處理所有輸入資料。 在此期間,Yoshua Bengio 等研究人員開始探索基於輸入令牌動態啟用或停用網路元件的方法。 這些研究的融合促進了自然語言處理(NLP)領域混合專家模型的探索。 特別是在 2017 年,Shazeer 等人(該團隊包括 Geoffrey Hinton 和 Jeff Dean,後者有時被戲稱為“Google 的 Chuck Norris”)將這一概念應用於 137B 的 LSTM(當時廣泛用於 NLP 的架構,由 Schmidhuber 提出)。 通過引入稀疏性,這項工作實現了快速的推理速度,同時保持了極高的規模。 這項工作主要集中在翻譯領域,但面臨著各種挑戰,例如高昂的溝通成本和培訓不穩定。
在超大神經網路中引入 Moe 層混合專家模型 (MOE) 使得訓練具有數千億甚至數萬億個引數的模型成為可能,例如開源 16萬億引數開關變壓器等 該技術不僅廣泛應用於自然語言處理(NLP)領域,而且開始在計算機視覺領域進行探索。 但是,這篇博文將主要關注自然語言處理領域的應用和**。
稀疏性的概念採用了條件計算的思想。 在傳統的密集模型中,所有引數都針對所有輸入資料進行處理。 相比之下,稀疏性允許我們僅對整個系統的某些特定部分進行計算。 這意味著在處理每個輸入時,並非所有引數都會被啟用或使用,而只會根據輸入的特定特徵或需求呼叫和執行部分引數集。
讓我們深入了解 Shazeer 對翻譯應用程式中混合專家模型 (MOE) 的貢獻。 條件計算的概念(即,僅在每個樣本的基礎上啟用網路的不同部分)可以在不增加額外計算負擔的情況下擴充套件模型大小。 該策略使每個 MOE 層中的數千名或更多專家能夠有效使用。
這種稀疏性設定確實帶來了一些挑戰。 例如,在混合專家模型 (MOE) 中,儘管較大的批大小通常有利於提高效能,但隨著資料通過啟用的專家,實際批大小可能會減小。 例如,假設我們有乙個包含 10 個令牌的輸入批次可能有五個令牌被路由到同乙個專家,而其餘五個令牌被路由到不同的專家。 這導致批量大小分布不均和資源利用效率低下。在以下各節中,我們將討論使教育部高效執行的其他挑戰以及如何解決這些挑戰。
那麼我們應該如何解決這個問題呢?可學習門控網路 (g) 決定將輸入的哪一部分傳送給哪些專家 (e)。
在此設定中,當所有EA對所有輸入執行操作時,加權乘法是通過門控網路的輸出執行的。 但是,如果 g(門控網路的輸出)為 0,會發生什麼?如果是這樣的話,就不需要計算相應的EA動作了,這樣我們就可以節省計算資源了。 那麼什麼是典型的門控功能呢?典型的門控函式通常是具有softmax函式的簡單網路。 該網路將學習將輸入傳送給哪個專家。
Shazeer等人的工作還探索了其他門控機制,包括嘈雜的top-k門控。 這種門控方法引入了一些可調雜訊,然後保留前 k 個值。 具體說來:
1.新增一些噪音。
2.選擇保留前 k 個值。
3.應用 softmax 函式。
這種稀疏性引入了一些有趣的功能。 通過使用較低的 k 值(例如 1 或 2),我們可以比啟用多個專家時更快地進行訓練和推理。 為什麼不是最好的專家呢?最初的假設是,需要將輸入路由到多個專家,以便門控學習如何有效地路由,因此至少需要選擇兩名專家。 Switch Transformers 對此做了更多的研究。
我們為什麼要增加噪音?這是為了專家之間的負載平衡!
如前所述,如果所有代幣都只傳送給少數受歡迎的專家,那麼訓練效率就會降低。 在通常的混合專家模型 (MOE) 訓練中,門控網路往往主要啟用相同的少數專家。 這種情況可以自我強化,因為受歡迎的專家培訓速度更快,因此更容易選擇。 為了緩解這個問題,引入了乙個輔助損失,旨在鼓勵對所有專家給予同等重視。 這種損失確保了所有專家收到的訓練樣本數量大致相等,從而平衡了專家之間的選擇。 下一節還將包括專家能力的概念,該概念引入了專家可以處理多少代幣的閾值。 在transformers
庫,你可以通過aux_loss
控制輔助損耗的引數。
Transformer 類模型清楚地表明,增加引數數量可以提高效能,因此 Google 使用 gshard 試圖將 Transformer 模型的引數數量擴充套件到 6000 億以上也就不足為奇了。
GSShard 將編碼器和解碼器中的每個前饋網路 (FFN) 層替換為使用前 2 門控的混合專家模型 (MOE) 層。 下圖顯示了編碼器部分的結構。 此體系結構適用於大規模計算:當擴充套件到多個裝置時,MOE 層在不同裝置之間共享,而所有其他層則在每個裝置上複製。 我們將在“讓教育部飛起來”一節中更詳細地討論這一點。
GSShard 中的 Moe Transformer 編碼器 為了保持負載平衡和訓練效率,除了上一節中討論的類似輔助損耗外,GSShard 的作者還引入了一些關鍵更改:
隨機路由:在前 2 名設定中,我們總是選擇排名最高的專家,但第二位專家是根據他們的體重秤隨機選擇的。 專家能力:我們可以設定乙個閾值來定義專家可以處理多少個令牌。 如果兩個專家都達到其容量,則令牌將溢位並通過殘餘聯接傳遞到下一層,或者在某些情況下完全丟棄。 專家能力是教育部最重要的概念之一。 為什麼需要專家能力?由於所有張量的形狀都是在編譯時靜態確定的,因此我們無法提前知道將分配給每個專家的令牌數量,因此需要固定的容量因子。 GSHARD的工作也為MOE的平行計算模式做出了重要貢獻,但這些討論超出了本部落格的範圍。
注意:在推理過程中,只有部分專家被啟用。 同時,一些計算過程是共享的,例如自注意力機制,它適用於所有代幣。 這就解釋了為什麼我們可以使用 8 個專家執行乙個 47b 模型,而 12b 密集模型則相當於 12b 密集模型。 如果我們使用 top-2 門控,模型將使用高達 14b 的引數。 然而,由於自注意力操作(在專家之間共享),模型執行時中使用的引數數量實際上是 12b。
儘管混合專家模型(MOE)顯示出巨大的潛力,但它們在訓練和微調過程中存在穩定性問題。 Switch Transformers 是一項非常令人興奮的工作,深入研究這些主題。 作者甚至在 Hugging Face 上發布了 1MOE的6萬億個引數,擁有2048位專家,您可以使用transformers
庫來執行它。 與 T5-XXL 相比,Switch Transformer 的預訓練速度提高了 4 倍。
Switch Transformer 中的 Switch Transformer 層與 GSHARD 中一樣,作者將前饋網路 (FFN) 層替換為混合專家模型 (MOE) 層。 Switch Transformer 提出了乙個 Switch Transformer 層,該層接收兩個輸入(兩個不同的令牌)並有四個專家。
與最初使用至少兩名專家的想法相反,Switch Transformer 採用了簡化的單專家策略。 這種方法的效果包括:
通過降低通訊成本和保持模型質量,可以減少門控網路(路由)的計算負擔至少減半 開關變壓器專家能力研究了這個概念。
上述建議的容量是在各個專家之間平均分配批次中的代幣數量。 如果我們使用大於 1 的容量因子,則當代幣分配不完全平衡時,我們會提供乙個緩衝區。 增加容量係數會導致更高的裝置間通訊成本,因此需要考慮權衡。 特別值得注意的是開關變壓器在低體積係數(例如,1 比 1)下的影響。25)在演出下表現出色。
Switch Transformer 的作者還重新審視並簡化了前幾節中提到的負載均衡損耗。 在訓練過程中,每個開關層的輔助損耗被新增到總模型損耗中。 這種損失鼓勵統一路由,並且可以使用超引數進行加權。
作者還嘗試了混合精度方法,例如bfloat16
精確培訓專家,同時全精度執行其餘計算。 較低的精度降低了處理器之間的通訊成本、計算成本和張量的記憶體。 然而,在最初的實驗中,當同時使用專家和門控網路時bfloat16
在精準訓練過程中,存在不穩定的訓練現象。 這種不穩定性主要是由路由計算引起的,因為路由涉及指數函式等需要高精度的運算。 因此,為了保持計算的穩定性和準確性,保持更高的精度是很重要的。 為了減輕不穩定性,在佈線過程中也使用了全精度。
使用混合精度不會降低模型質量,並且可以加快訓練速度,此 Jupyter 筆記本顯示了有關如何微調開關變壓器以生成摘要的詳細指南。 但是,在開始微調開關變壓器之前,強烈建議您閱讀有關微調混合專家模型的部分。
Switch Transformer 使用編碼器-解碼器架構來實現類似於 T5 的混合專家模型 (MOE) 版本。 GLAM 的工作探索了如何訓練 GPT-3 質量模型,以增加 GPT-3 模型的規模,計算資源僅為 1 3(因為 MOE 模型需要更少的計算來訓練,從而顯著降低碳足跡)。 作者專注於僅解碼器模型以及少量和單次評估,而不是微調。 他們使用了 top-2 路由和更大的容量係數。 此外,他們使容量因子成為一種動態度量,根據訓練和評估期間使用的計算量進行調整。
前面討論的平衡損失可能會導致穩定性問題。 有許多方法可用於穩定稀疏模型的訓練,但這可能會以犧牲模型質量為代價。 例如,引入 dropout 可以提高穩定性,但會導致模型質量下降。 另一方面,新增更多的乘法分量可以提高質量,但會降低模型的穩定性。
聖萌router z-loss
在保持模型效能的同時,訓練的穩定性得到了顯著提高。 通過懲罰門控網路輸入,這種損耗機制更大logits
使值的絕對大小保持較小,從而有效減少計算中的捨入誤差。 這對於依賴指數函式進行計算的門控網路尤為重要。 為了深入了解這種機制,建議參考原文**以獲得更全面的細節。
ST-MOE的研究人員發現,編碼器的不同專家傾向於關注特定型別的令牌或膚淺的概念。 例如,一些專家可能專門研究標點符號,而另一些專家則專門研究專有名詞等。 相比之下,解碼器專家的專業化程度通常較低。 此外,研究人員還用多種語言訓練了該模型。 儘管人們可能期望每個專家都處理一種特定的語言,但實際上並非如此。 由於令牌路由和負載平衡的機制,沒有專門配置專家來處理特定語言。
st-moe 顯示哪些令牌組被傳送給了哪個專家**新增更多專家可以提高處理樣本的效率並加快模型速度,但這些優勢會隨著專家數量的增加而減弱(尤其是當專家數量達到 256 或 512 時)。 同時,這也意味著在推理過程中需要更多的視訊記憶體來載入整個模型。 值得注意的是,Switch Transformers 的研究表明,它在大型模型中的功能也適用於小型模型,即使每層只有 8 名專家。
稠密模型和稀疏模型在過擬合的動態效能上存在顯著差異。 稀疏模型更容易受到過度擬合的影響,因此在處理這些模型時,嘗試更強大的內部正則化措施是有益的,例如使用更高百分比的丟棄。 例如,我們可以通過為密集層設定較低的丟失率,為稀疏層設定較高的丟失率來優化模型效能。版本
transformers
該庫支援混合模型。 您可以使用以下命令安裝它:pip install "transformers==4.36.0 --upgrade
在微調過程中是否使用輔助損耗是乙個需要決定的問題。 ST-MOE的作者試圖關閉輔助損失,發現即使高達11%的代幣被丟棄,模型的質量也沒有受到顯著影響。 令牌丟棄可以是一種正則化形式,有助於防止過度擬合。
Switch Transformer 的作者觀察到,稀疏模型在具有相同預訓練困惑性的下游任務上的表現不如它們的內聚對應物,尤其是在重新理解強力膠等任務時。 另一方面,對於知識密集型任務(如瑣事),稀疏模型的表現非常出色。 作者還觀察到,在微調過程中,少數專家有助於提高效能。 泛化問題確認的另乙個發現是,該模型在小任務上表現不佳,但在大任務上表現良好。
在小任務(左)中,我們可以看到明顯的過擬合,因為稀疏模型在驗證集中的表現要差得多。 在較大的任務(右)中,教育部表現良好。 該圖來自 st-moe **乙個可行的微調策略是嘗試凍結所有非專家層的權重。 在實踐中,這會導致效能顯著下降,但這符合我們的預期,因為混合專家模型 (MOE) 層佔據了網路的大部分。 我們可以嘗試相反的方法:只凍結萌層的引數。 實驗結果表明,該方法幾乎與更新所有引數一樣有效。 這加快了微調過程並降低了記憶體需求。
通過僅凍結 MOE 層,我們可以在保持質量的同時加快訓練速度。 該圖來自 ST-MOE **微調稀疏混合專家模型 (MOE) 時要考慮的最後一件事是它們具有特殊的微調超引數設定 - 例如,稀疏模型往往更適合較小的批量大小和更高的學習率,從而產生更好的訓練結果。
降低學習率和增加批量大小可以提高稀疏模型的微調質量。 該圖來自 st-moe 在這一點上,您可能會對人們在微調 MOE 時遇到的這些挑戰感到沮喪,但最近一篇關於 Moes Meets Instruction Tuning(2023 年 7 月)的文章帶來了令人興奮的發現。 本文進行了以下實驗:
單任務微調多工指令微調多工指令微調在收到訂單任務微調後,當研究人員對具有可比 MOE 和相應效能的 T5 模型進行微調時,他們發現 T5 對應模型的效能更好。 然而,當研究人員微調 FLAN T5 的 MOE 版本(T5 的指令優化版本)時,MOE 的效能顯著提高。 更值得注意的是,FLAN-MOE 相對於原始 MOE 的效能改進超過了 FLAN T5 相對於原始 T5 的改進,這意味著 MOE 模型可能從教學微調中受益更多,甚至比密集模型更多。 此外,MOE 在多工處理方面表現更好。 與之前的關閉輔助損失函式則相反,事實上,這種損失函式可以幫助防止過擬合。
與密集模型相比,稀疏模型從指令微調中獲益更多。 此圖來自 Moes Meets Instructions Tuning **稀疏混合專家模型 (MOE) 適用於需要高吞吐量的多台計算機的場景。 在固定的預訓練計算資源下,稀疏模型往往可以取得更好的結果。 相反,在視訊記憶體較少、吞吐量要求較低的場景中,密集模型是更合適的選擇。
注意:在稀疏模型和密集模型之間直接比較引數數量是不合適的,因為這兩種型別的模型基於完全不同的引數數量計算概念和方法。
最初的混合專家模型 (MOE) 設計具有分支結構,這導致計算效率低下。 這種低效率主要是由於 GPU 不是為處理這種結構而設計的,並且由於需要在裝置之間傳遞資料,網路頻寬經常成為效能瓶頸。 在接下來的討論中,我們將討論一些現有的研究成果,旨在使這些模型在預訓練和推理階段更加高效和有用。 我們來看看如何優化MOE模型,讓MOE騰飛。
平行計算
讓我們簡要回顧一下平行計算的幾種形式:
資料並行性:在所有節點上複製相同的權重,並在節點之間拆分資料。 模型是並行的:模型在節點之間拆分,並在所有節點上複製相同的資料。 模型和資料是並行的:我們可以在節點之間拆分模型和資料。 請注意,不同的節點處理不同批次的資料。 專家並行:專家被放置在不同的節點上。 如果與資料並行組合,則每個節點都有不同的專家,並且資料在所有節點之間拆分。 在專家並行中,專家被放置在不同的節點上,每個節點處理不同批次的訓練樣本。 對於非 MOE 層,專家並行性的行為與資料並行性相同。 對於 MOE 層,序列中的令牌將傳送到具有所需專家的節點。
Switch Transformer ** 圖示顯示如何使用不同的並行技術拆分節點上的資料和模型容量係數和通訊開銷
增加容量因子 (CF) 可以提高模型的效能,但這也意味著更高的通訊成本和需要記憶體來儲存啟用值。 在裝置通訊頻寬有限的情況下,選擇較小的容量係數可能是更好的策略。 合理的初始設定是使用 top-2 路由,125 個容量因素,同時為每個節點配置乙個專家。 在評估效能時,應根據需要調整容量係數,以在裝置之間的通訊成本和計算成本之間找到平衡。
部署技術
您可以在以下情況下執行此操作:inference endpoints
部署 mistralai mixtral-8x7b-instruct-v01。
部署混合專家模型 (MOE) 的乙個關鍵挑戰是其龐大的引數規模。 對於本地使用,我們可能需要使用較小的模型。 為了使模型更適合部署,下面是一些有用的技術:
預蒸餾實驗:開關變壓器研究人員進行了預蒸餾實驗。 通過將 MOE 模型提煉回其密集對應模型,由於稀疏性,他們設法保留了 30-40% 的效能增益。 預蒸餾不僅加快了預訓練速度,而且還可以在推理中使用較小的模型。 任務級路由:在最新的方法中,路由器已被修改為將整個句子或任務直接路由到單個專家。 這樣做會提取服務的子網,從而有助於簡化模型的結構。 專家網路聚合:該技術通過組合單個專家的權重來減少推理所需的引數數量。 這降低了模型的複雜性,而不會顯著犧牲效能。 高效訓練
FasterMoe(2022 年 3 月)深入分析了不同並行策略下 MOE 的理論效能極限,並探索了一系列創新技術,包括專家權重調整方法、降低延遲的細粒度通訊排程技術,以及基於最低延遲的拓撲感知門控機制,用於專家選擇。 這些技術的結合使教育部的執行速度提高了 17 倍。
MegaBlocks(2022 年 11 月)專注於開發乙個新的 GPU 核心來處理 MOE 模型中的動態,以實現更高效的稀疏預訓練。 它的核心優勢在於不丟棄任何令牌,並高效適配現代硬體架構(支援塊稀疏矩陣乘法),實現顯著的加速。 MegaBlocks的創新之處在於,MOE層不像傳統的MOE那樣使用批量矩陣乘法(通常假設所有專家都是相同的形狀並處理相同數量的代幣),而是將MOE層表示為區塊稀疏操作,可以靈活地適應不均勻的代幣分布。
塊稀疏矩陣乘法,適用於不同大小的專家和令牌數。 該圖來自 MegaBlocks **目前,以下開源專案可用於訓練混合專家模型 (MOE)。
MegaBlocks:對於開源混合專家模型 (MOE),您可以查詢以下幾點:
Switch Transformers (Google):基於 T5 的 MOE 集合,擁有從 8 到 2048 的一系列專家。 最大的模型有 1 個6 萬億個引數。 NLLB MOE (Meta):NLLB 翻譯模型的 MOE 變體。 OpenMoe:社群對基於 Llama 的模型的 MOE 嘗試。 Mixtral 8x7B (MISTRAL):一種高質量的混合專家模型,其效能優於 LLAMA 2 70B,推理速度更快。 此外,還發布了乙個帶有微調指令的模型。 更多資訊可以在 Mistral 的公告部落格文章中找到。 第一種是嘗試混合稀疏專家模型 (SMOE)。蒸餾回到乙個密集的模型,該模型具有較少的實際引數,但等效引數的數量相似。
萌氏量化這也是乙個有趣的研究領域。 例如,QMOE(2023 年 10 月)將 MOE 量化為每個引數小於 1 位,即 1乙個 6 萬億引數開關變壓器所需的儲存量為 32TB 壓縮到僅 160GB。
簡而言之,一些值得探索的有趣領域包括:
將混合物蒸餾成緻密模型。 探索合併專家模型的技術及其對推理時間的影響。 嘗試對混合物進行極端量化的實驗。 adaptive mixture of local experts (1991)learning factored representations in a deep mixture of experts (2013)outrageously large neural networks: the sparsely-gated mixture-of-experts layer (2017)gshard: scaling giant models with conditional computation and automatic sharding (jun 2020)glam: efficient scaling of language models with mixture-of-experts (dec 2021)switch transformers: scaling to trillion parameter models with **and efficient sparsity (jan 2022)st-moe: designing stable and transferable sparse expert models (feb 2022)fastermoe: modeling and optimizing training of large-scale dynamic pre-trained models(april 2022)megablocks: efficient sparse training with mixture-of-experts (nov 2022)mixture-of-experts meets instruction tuning:a winning combination for large language models (may 2023)mixtral-8x7b-v0.1, mixtral-8x7b-instruct-v0.1.
@misc , title = , year = 2023, url = , publisher = }
sanseviero, et al., "mixture of experts explained", hugging face blog, 2023.
英文原文:原作者: Omar Sanseviero, Lewis Tunstall, Philipp Schmid, Sourab Mangrulkar, Younes Belkada, Pedro Cuenca
譯者:xinyu66(xinyu yang)。