編輯:桃子。
近日,NVIDIA團隊推出了乙個全新的模型Nemotron-4,該模型具有150億個引數,在8T代幣上進行了訓練。
值得一提的是,Nemotron-4 在英語、多語言和編碼任務方面令人印象深刻。
*位址:與引數大小相當的模型相比,Nemotron-4 15b 在 7 個評估基準上表現良好。
事實上,它的效能超過了大 4 倍的模型,以及專用於多語言任務的模型。
現在有很多LLM,NVIDIA新發布的語言模型有什麼區別?
打造功能最強大的通用LLM,一台A100 H100即可執行
最近發表的LLM研究受到Chinchilla模型縮放定律的啟發,在該定律中,資料和模型大小在固定計算預算的情況下一起優化。
過去,研究的重點是縮放模型大小。
研究表明,給定兩個具有相似資料分布的 ISOFLOP GPT 模型,乙個為 14 萬億個代幣上的 65 億引數模型,以及 3000 億個代幣上的 2800 億引數模型。
顯然,65b的模型在下游任務上更準確。
從推理的角度來看,將計算分配給使用更多資料進行訓練,而不是增加模型大小,這特別有吸引力,並且可以減少延遲和服務模型所需的計算量。
因此,語言建模訓練工作的主要重點已轉移到從公共資源(如 Commoncrawl)收集高質量的數萬億個令牌資料集。
作為回應,NVIDIA 研究人員提出了 Nemotron-4 15B 來延續這一趨勢。
具體來說,Nemotron-4 15B 在 8 萬億個令牌上進行訓練,包括英語、多語言和編碼文字。
根據 Nvidia 的說法,Nemotron-4 15B 的開發目的如下:
成為可在單個 NVIDIA A100 或 H100 GPU 上執行的最佳通用型號。架構簡介Nemotron-4 使用帶有因果注意力掩碼的標準純解碼器 Transformer 架構。
表 1 顯示了核心的超引數。
Nemotron-4 有 32 億個嵌入引數和 125 億個非嵌入引數。
研究人員使用了旋轉位置編碼 (ROPE)、SentencePiece 分詞器、MLP 層的平方 Relu 啟用、無偏術語、零丟失率和無限的輸入/輸出嵌入。
分組查詢關注點 (GQA) 可實現更快的推理和更低的記憶體占用。
資料
研究人員在包含8萬億個代幣的預訓練資料集上訓練了Nemotron-4 15b。
有三種不同型別的資料:英語自然語言資料 (70%)、多語言自然語言資料 (15%) 和源**資料 (15%)。
英語語料庫由來自各種**和領域的精選文件組成,包括網路文件、新聞文章、科學**、書籍等。
* 多語言資料包括各種自然語言和程式語言。
研究人員發現,從這些語言中正確抽取令牌是在這些領域實現高準確性的關鍵。
此外,研究人員分別在圖3和圖4中分享了預訓練資料集中用於**和多語言標記的分布。
預訓練
Nemotron-4 在 384 個 DGX H100 節點上進行了訓練。 每個節點包含八個基於 NVIDIA Hopper 架構的 H100 80GB SXM5 GPU。
執行無稀疏性 16 位浮點 (Bfloat16) 運算時,每個 H100 GPU 的峰值吞吐量為 989 teraflop s。
在每個節點中,GPU 通過 NVLink 和 NVConode (NVL) 連線。 GPU 到 GPU 的頻寬為 900 Gbs(每個方向 450 Gbs)。
每個節點都有 8 個 NVIDIA Mellanox 400 Gbps HDR Infiniband 主機通道介面卡 (HCA),用於節點間通訊。
研究人員使用 8 向張量並行和資料並行的組合來訓練模型,還使用分布式優化器將優化器狀態分片到資料的並行副本上。 隨著批大小的增加,資料並行度從 96 增加到 384。
表 2 總結了批量大小增加的 3 個階段,包括每次迭代時間和模型 FLOPS 利用率 (MFU)。 MFU 量化了 GPU 在模型訓練中的利用效率。 培訓在大約 13 天內完成。
培訓
與最近的研究類似,研究人員發現,在模型訓練結束時在資料分布和學習速率衰減計畫之間切換可以大大提高模型質量。
具體來說,在整個 8T 預訓練資料集上訓練後,使用相同的損失目標,並且與預訓練代幣相比,持續訓練的代幣數量更少。
在持續訓練的這個額外階段,使用了兩種不同的資料分布。
第一種分布是,大部分代幣都是從持續訓練期抽樣的。 它利用了在預訓練期間已經引入的代幣,但其分布對更高的質量施加了更大的取樣權重**。
第二種分布引入了少量基準對齊示例,使模型能夠在下游評估中更好地回答此類問題,同時也增加了來自模型表現不佳的領域的資料來源的權重。
實驗結果
研究人員在涵蓋各種任務和領域的下游評估領域對Nemotron-4 15B進行了評級。
常識推理
作者在上述所有任務中使用 LM-Evaluation Hospitality 評估了 Nemotron-4 15B。
表 3 顯示 Nemotron-4 15b 在這組不同的任務中取得了最強的平均效能。
流行的綜合基準
從表4可以看出,Nemotron-4 15B在現有型號中BBH得分最高,增長了近7%。
此外,Nemotron-4 在 BBH 基準測試中的表現明顯優於 LLAMA-2 70B 模型,其中 LLAMA-2 70B 得分為 512、Nemotron-4得分58分7。
Nemotron-4 15B 還獲得了極具競爭力的 MMLU 分數。
數學和**
表 5 突出顯示了 Nemotron-4 15b 在數學和 ** 任務上的效能。
具體來說,在數學推理方面,Nemotron-4 15b表現強勁,得分與GEMMA 7b相似,但落後於Baichuan-2和QWEN等模型。
在**任務中,Nemotron-4的表現與QWEN 14B相當,但略微落後於GEMMA 7B。
在這兩種型別的任務中,Nemotron-4 15B 的表現都優於 Mistral 7B 和 LLAMA-213B 34B。
幾乎所有大小相似的開放模型都僅根據 Python 相關任務的效能來確定其功能,而忽略了對其他程式語言功能的評估。
在表 6 中,給出了 Nemotron-4 15B 在 Multiple-E 基準測試中的結果,涵蓋了 11 種不同的程式語言。
結果發現,Nemotron-4 15B在各種程式語言中具有很強的編碼效能,平均效能優於Starcoder和Mistral 7B。
特別是,研究人員強調了Nemotron-4 15B在Scala、Julia和R等低資源程式語言上的卓越效能。
多種語言
分類
從表 7 中可以清楚地看出,Nemotron-4 在所有型號中都取得了最佳效能,在 4 種設定中實現了近 12% 的改進。
建
表8顯示Nemotron-4 15B達到了最佳效能。
令人印象深刻的是,Nemotron-4 15B 能夠顯著改進下乙個最佳型號 Palm 62B-Cont。
表 9 顯示了 MGSM 的效能,進一步展示了 Nemotron-4 15B 令人印象深刻的多語言功能。
在這項評估數學和多語言交叉點的具有挑戰性的任務中,Nemotron-4 15b 在比較模型中取得了最佳效能,比最接近的分數提高了近 30%。
機器翻譯
如表10所示,Nemotron-4 15B的效能分別比LLAMA-2 13B和百川-2 13B高出90%2% 和 441%。
Nemotron-4 15b 不僅擅長從中文翻譯成英文,而且擅長將中文直接翻譯成其他語言。
這種能力凸顯了Nemotron-4 15b對各種自然語言的深刻理解。