編輯:alan
在大模型漸開的同時,變形金剛的地位也接二連三地受到挑戰。
近日,RWKV發布了基於最新RWKV-V5架構的Eagle 7B型號。
Eagle 7b 在多語言基準測試中擊敗了同類產品中的所有型號,在單獨的英語測試中,它幾乎與表現最好的型號相當。
同時,Eagle 7B採用RNN架構,與同尺寸的Transformer機型相比,推理成本降低了10-100倍以上,可以說是全球最環保的7B機型。
由於 RWKV-V5 可能要到下個月才能發布,因此這裡是第乙個擴充套件到數百億引數的非 Transformer 架構。
*位址:本作品已被EMNLP 2023錄用,我們可以看到作者來自不同國家的頂尖大學、研究機構和技術公司。
下面是Eagle 7b的官方圖片,顯示老鷹正在飛越變形金剛。
eagle 7b
Eagle 7b 提供 100 多種語言版本,1Eagle 7B 擁有 1T (萬億) 個 Token 的訓練資料,在下圖的多語言基準測試中平均排名第一。
基準包括 xlambda、xstorycloze、xwinograd 和 xcopa,涵蓋 23 種語言,以及各自語言的常識推理。
Eagle 7B在其中三個中排名第一,雖然乙個沒有玩Mistral-7B並獲得第二名,但對手使用的訓練資料比Eagle高得多。
下面的英語測試包含 12 個獨立的基準、常識推理和世界知識。
在英語效能測試中,Eagle 7b的水平接近Falcon(1.)。5T)、LLAMA2 (2T) 和 MISTRAL (>2T),與 MPT-7B 相當,後者也使用大約 1 T 的訓練資料。
而且,在這兩項測試中,新的 V5 架構代表了與之前 V4 相比的巨大整體飛躍。
Eagle 7B 目前由 Linux 為 Apache 2 託管0 許可授予,可用於個人或商業用途,不受限制。
如前所述,Eagle 7b 的訓練資料來自 100 多種語言,而上面使用的 4 個多語言基準測試僅包括 23 種語言。
儘管取得了第一名的成績,但Eagle 7b總體上還是受到了影響,畢竟,基準測試無法直接評估該模型在其他70多種語言中的效能。
額外的培訓費用不會幫助你提高排名,如果你專注於英語,你可能會得到比現在更好的結果。
那麼,RWKV為什麼要這樣做呢? 官方是這樣說的:
building inclusive ai for everyone in this world ——not just the english在對 RWKV 模型的眾多反饋中,最常見的是:
多語言方法損害了模型的英語評估分數,並減慢了線性變壓器的開發速度。正式地,在大多數情況下,我們同意這些意見讓多語言模型將多語言效能與純英語模型進行比較是不公平的。
但我們沒有計畫改變這一點,因為我們正在為世界構建人工智慧——這不僅僅是乙個英語世界。 」
到 2023 年,世界上只有 17% 的人口說英語(約 13 億人),然而,通過支援世界前 25 種語言,該模型可以覆蓋約 40 億人,佔世界總人口的 50%。
該團隊希望人工智慧的未來可以幫助每個人,比如讓模型在低端硬體上廉價執行,比如支援更多語言。
該團隊將逐步擴充套件多語言資料集,以支援更廣泛的語言,並慢慢將覆蓋範圍擴大到全球 100%,——確保不遺漏任何語言。
在模型的訓練過程中,有乙個值得注意的現象:
隨著訓練資料規模的增加,模型的效能逐漸提高,當訓練資料達到300b左右時,模型表現出與pythia-6相同的效能9b具有相似的效能,而後者的訓練資料量為300b。
這種現象與之前在RWKV-V4架構上的實驗相同,——這意味著像RWKV這樣的線性Transformer在相同大小的訓練資料下的表現將與Transformer大致相同。
因此,我們不得不問,如果是這樣的話,資料對模型的效能是否比確切的架構更重要?
我們知道,Transformer 類的計算和儲存成本是平方的,而上圖中 RWKV 架構的計算成本只是隨著代幣數量的增加而線性增加。
也許我們應該尋找更高效、可擴充套件的架構來提高可訪問性,降低每個人的人工智慧成本,並減少對環境的影響。
rwkv
RWKV 架構是具有 GPT 級 LLM 效能的 RNN,而訓練可以像 Transformer 一樣並行化。
RWKV 結合了 RNN 和 Transformer 的優點——出色的效能、快速推理、快速訓練、節省 VRAM、無限的上下文長度和自由的句子嵌入,RWKV 不使用注意力機制。
下圖顯示了 RWKV 和 Transformer 模型之間的計算成本比較
為了解決變壓器的時空複雜性,研究人員提出了多種架構:
RWKV架構由一系列堆疊的殘差塊組成,每個塊由乙個具有迴圈結構的時間混合和乙個通道混合子塊組成。
在下圖中,RWKV 塊元素在左邊,RWKV 殘差塊在右邊,最後乙個頭是語言建模。
遞迴可以表示為當前輸入和前乙個時間步長的輸入之間的線性插值(如下圖中的對角線所示),可以針對嵌入輸入的每個線性投影獨立調整。
這裡還引入了乙個單獨處理當前令牌的向量,以補償潛在的降級。
RWKV 可以有效地並行化(矩陣乘法),我們稱之為時間並行。
在迴圈網路中,前乙個時刻的輸出通常用作當前時刻的輸入。 這在語言模型的自回歸解碼推理中尤為明顯,該推理要求在進行下乙個輸入之前計算每個標記,從而允許 RWKV 利用其類似 RNN 的結構,稱為時間順序模式。
在這種情況下,可以方便地遞迴地制定RWKV以在推理期間進行解碼,利用每個輸出令牌僅依賴於最新狀態這一事實,其大小是恆定的,與序列長度無關。
然後,它充當 RNN 解碼器,相對於序列的長度產生恆定的速度和記憶體占用,從而能夠更有效地處理較長的序列。
相反,自注意力 KV 快取相對於序列長度增長,導致效率降低,記憶體占用和時間隨著序列的延長而增加。
引用: