RNN模型挑戰變形金剛霸權! 1 價效比可與Mistral 7B相媲美

Mondo 數碼 更新 2024-02-20

編輯:alan

在大模型漸開的同時,變形金剛的地位也接二連三地受到挑戰。

近日,RWKV發布了基於最新RWKV-V5架構的Eagle 7B型號。

Eagle 7b 在多語言基準測試中擊敗了同類產品中的所有型號,在單獨的英語測試中,它幾乎與表現最好的型號相當。

同時,Eagle 7B採用RNN架構,與同尺寸的Transformer機型相比,推理成本降低了10-100倍以上,可以說是全球最環保的7B機型。

由於 RWKV-V5 可能要到下個月才能發布,因此這裡是第乙個擴充套件到數百億引數的非 Transformer 架構。

*位址:本作品已被EMNLP 2023錄用,我們可以看到作者來自不同國家的頂尖大學、研究機構和技術公司。

下面是Eagle 7b的官方圖片,顯示老鷹正在飛越變形金剛。

eagle 7b

Eagle 7b 提供 100 多種語言版本,1Eagle 7B 擁有 1T (萬億) 個 Token 的訓練資料,在下圖的多語言基準測試中平均排名第一。

基準包括 xlambda、xstorycloze、xwinograd 和 xcopa,涵蓋 23 種語言,以及各自語言的常識推理。

Eagle 7B在其中三個中排名第一,雖然乙個沒有玩Mistral-7B並獲得第二名,但對手使用的訓練資料比Eagle高得多。

下面的英語測試包含 12 個獨立的基準、常識推理和世界知識。

在英語效能測試中,Eagle 7b的水平接近Falcon(1.)。5T)、LLAMA2 (2T) 和 MISTRAL (>2T),與 MPT-7B 相當,後者也使用大約 1 T 的訓練資料。

而且,在這兩項測試中,新的 V5 架構代表了與之前 V4 相比的巨大整體飛躍。

Eagle 7B 目前由 Linux 為 Apache 2 託管0 許可授予,可用於個人或商業用途,不受限制。

如前所述,Eagle 7b 的訓練資料來自 100 多種語言,而上面使用的 4 個多語言基準測試僅包括 23 種語言。

儘管取得了第一名的成績,但Eagle 7b總體上還是受到了影響,畢竟,基準測試無法直接評估該模型在其他70多種語言中的效能。

額外的培訓費用不會幫助你提高排名,如果你專注於英語,你可能會得到比現在更好的結果。

那麼,RWKV為什麼要這樣做呢? 官方是這樣說的:

building inclusive ai for everyone in this world ——not just the english

在對 RWKV 模型的眾多反饋中,最常見的是:

多語言方法損害了模型的英語評估分數,並減慢了線性變壓器的開發速度。

讓多語言模型將多語言效能與純英語模型進行比較是不公平的。

正式地,在大多數情況下,我們同意這些意見

但我們沒有計畫改變這一點,因為我們正在為世界構建人工智慧——這不僅僅是乙個英語世界。 」

到 2023 年,世界上只有 17% 的人口說英語(約 13 億人),然而,通過支援世界前 25 種語言,該模型可以覆蓋約 40 億人,佔世界總人口的 50%。

該團隊希望人工智慧的未來可以幫助每個人,比如讓模型在低端硬體上廉價執行,比如支援更多語言。

該團隊將逐步擴充套件多語言資料集,以支援更廣泛的語言,並慢慢將覆蓋範圍擴大到全球 100%,——確保不遺漏任何語言。

在模型的訓練過程中,有乙個值得注意的現象:

隨著訓練資料規模的增加,模型的效能逐漸提高,當訓練資料達到300b左右時,模型表現出與pythia-6相同的效能9b具有相似的效能,而後者的訓練資料量為300b。

這種現象與之前在RWKV-V4架構上的實驗相同,——這意味著像RWKV這樣的線性Transformer在相同大小的訓練資料下的表現將與Transformer大致相同。

因此,我們不得不問,如果是這樣的話,資料對模型的效能是否比確切的架構更重要?

我們知道,Transformer 類的計算和儲存成本是平方的,而上圖中 RWKV 架構的計算成本只是隨著代幣數量的增加而線性增加。

也許我們應該尋找更高效、可擴充套件的架構來提高可訪問性,降低每個人的人工智慧成本,並減少對環境的影響。

rwkv

RWKV 架構是具有 GPT 級 LLM 效能的 RNN,而訓練可以像 Transformer 一樣並行化。

RWKV 結合了 RNN 和 Transformer 的優點——出色的效能、快速推理、快速訓練、節省 VRAM、無限的上下文長度和自由的句子嵌入,RWKV 不使用注意力機制。

下圖顯示了 RWKV 和 Transformer 模型之間的計算成本比較

為了解決變壓器的時空複雜性,研究人員提出了多種架構:

RWKV架構由一系列堆疊的殘差塊組成,每個塊由乙個具有迴圈結構的時間混合和乙個通道混合子塊組成。

在下圖中,RWKV 塊元素在左邊,RWKV 殘差塊在右邊,最後乙個頭是語言建模。

遞迴可以表示為當前輸入和前乙個時間步長的輸入之間的線性插值(如下圖中的對角線所示),可以針對嵌入輸入的每個線性投影獨立調整。

這裡還引入了乙個單獨處理當前令牌的向量,以補償潛在的降級。

RWKV 可以有效地並行化(矩陣乘法),我們稱之為時間並行。

在迴圈網路中,前乙個時刻的輸出通常用作當前時刻的輸入。 這在語言模型的自回歸解碼推理中尤為明顯,該推理要求在進行下乙個輸入之前計算每個標記,從而允許 RWKV 利用其類似 RNN 的結構,稱為時間順序模式。

在這種情況下,可以方便地遞迴地制定RWKV以在推理期間進行解碼,利用每個輸出令牌僅依賴於最新狀態這一事實,其大小是恆定的,與序列長度無關。

然後,它充當 RNN 解碼器,相對於序列的長度產生恆定的速度和記憶體占用,從而能夠更有效地處理較長的序列。

相反,自注意力 KV 快取相對於序列長度增長,導致效率降低,記憶體占用和時間隨著序列的延長而增加。

引用:

相關問題答案

    Nube,挑戰暗物質模型的幾乎看不見的星系

    Nube 系統。該圖是彩色影象和黑白影象的組合,用於選擇背景。gtc mireia montes Nube是乙個幾乎看不見的矮星系,由加那利群島天文研究所 IAC 領導的國際研究小組與拉古納大學 ULL 和其他機構合作發現。這個名字是由該小組中一位研究人員的 歲女兒提出的,因為該物體的外觀是瀰漫的。...

    Microsoft 推出 Phi 2 小語言模型,挑戰巨型 LLM 新時代

    近日,Microsoft宣布推出小語言模型 SLM PHI ,標誌著AI和LLM領域取得重要突破。Phi 定位為 Phi ,Microsoft聲稱在各種生成式 AI 基準測試中優於 Llama Mistral 和 Gemini 等大型模型。什麼是大型語言模型 大型語言模型和小型語言模型是兩種不同大小...

    大型語言模型的挑戰和前景 亞馬遜雲科技負責任的人工智慧

    在大型語言模型計算能力快速增長的時代,創新的前景與安全 負責任的開發和使用之間存在著激烈的爭奪。在本文中,我們將概述大型語言模型面臨的挑戰,調查圍繞這些挑戰的新興科學研究,並深入探討 AWS 正在採取哪些措施來推進負責任的 AI 工作。大型語言模型的技術本質 亞馬遜學者麥可 凱恩斯 Michael ...

    兩輛車彈射器挑戰!隱藏機器的全尺寸模型加入了戰鬥

    現代航空母艦是強大的作戰平台,但在起飛時有一些侷限性。從小鷹級到尼公尺茲級再到福特級的傳統航母,飛行甲板布局相似,無法突破最佳起降過程。三艘的駕駛艙總面積沒有太大變化,主公升降機的形狀和數量也進行了調整,但唯一不變的是四架彈射器的位置和整體布局。這就引出了乙個問題 四架艦載機可以同時彈射和起飛嗎?如...

    挑戰 NVIDIA! AI大型模型晶元創業公司成功獲得億元融資!

    挑戰 NVIDIA!某AI大型模型晶元創業公司成功獲得億元融資!南韓人工智慧晶元公司Rebellions前段時間宣布,該公司已收到萬美元的B輪投資,用於加速下一代AI晶元Rebel的開發,該晶元可以適應大規模語言模型。該公司還將利用最初的萬美元額外資金來增加其資料中心處理器Atom的產量,該處理器也...