由機器之心報告。
編輯:**雞佳琪
我們需要更全面、更深入地分享。開源模型不僅在數量上,而且在效能上都顯示出它們的可行性。 圖靈獎得主Yann Lecun也感嘆,開源AI模型正在超越專有模型。 」
專有模型在技術效能和創新方面表現出非凡的力量,但它們的非開源性質阻礙了LLM的發展。 雖然一些開源模型為從業者和研究人員提供了多種選擇,但大多數模型只披露了最終的模型權重或推論**,越來越多的技術報告將其範圍限制在頂層設計和表面統計。 這種閉源策略不僅限制了開源模型的發展,而且在很大程度上阻礙了整個法學碩士研究領域的進步。
這意味著這些模型需要更全面、更深入地共享,包括訓練資料、演算法細節、實現挑戰和效能評估細節。
Cerebras、Petuum 和 MBZUAI 等研究人員提出了 LLM360。 這是乙個完全開源的 LLM 計畫,倡導向社群提供與 LLM 培訓相關的所有內容,包括訓練**和資料、模型檢查點、中間結果等。 LLM360 的目標是通過使 LLM 訓練過程對每個人透明和可重複,推動開放和協作的 AI 研究。
*位址: 專案網頁:
部落格:部落格 introducing-llm360-fully-transparent-open-source-llmshtml
研究人員開發了LLM360的架構,重點關注其設計原則和完全開源的基本原理。 它們詳細介紹了 LLM360 框架的元件,包括資料集、** 和配置、模型檢查點、指標等特定詳細資訊。 LLM360為當前和未來的開源模型設定了透明度樣本。
在LLM360的開源框架下,研究人員發布了兩個從頭開始預訓練的大型語言模型:Amber和Crystalcoder。 琥珀色基於 1預訓練 7b 英語語言模型的 3T 令牌。 Crystalcoder 基於 14T 代幣預訓練 7b 英語和**語言模型。 在本文中,研究人員總結了兩種模型的發展細節、初步評估結果、觀察結果以及從中吸取的經驗教訓。 值得注意的是,在發布時,Amber 和 Crystalcoder 在訓練期間分別儲存了 360 個和 143 個模型檢查點。
接下來,我們來看看文章的具體內容。
LLM360型
LLM360 將為 LLM 預培訓過程中需要收集哪些資料提供標準,以確保現有工作能夠更好地與社群傳播和共享。 它主要包含以下幾個部分:
1.訓練資料集和資料處理**
預訓練資料集對於大型語言模型的效能至關重要。 因此,了解預先訓練的資料集以評估潛在的行為問題和偏見非常重要。 此外,公開的預訓練資料集有助於提高 LLM 的可擴充套件性,因為它隨後會進行微調並適應各種領域。 最近的研究表明,對重複資料進行訓練會不成比例地降低模型的最終效能。 因此,公開原始預訓練資料有助於避免在微調下游或繼續在特定領域進行預訓練時使用重複資料。 出於這些原因,LLM360 提倡公開大型語言模型的原始資料集。 在適當的情況下,還應公開有關資料篩選、處理和訓練序列的詳細資訊。
2.訓練**、超引數和配置
訓練**、超引數和配置對 LLM 訓練的效能和質量有重大影響,但並不總是公開披露。 在 LLM360 中,研究人員開源了預訓練框架的所有訓練**、訓練引數和系統配置。
3.模型檢查點
定期儲存模型檢查點也很有用。 它們不僅對訓練期間的故障恢復至關重要,而且對訓練後的研究也很有用,因為這些檢查點允許後來的研究人員從多個起點繼續訓練模型,而無需從頭開始訓練,有助於可重複性和進一步研究。
4.效能指標
訓練 LLM 可能需要數週到數月的時間,訓練期間的演變趨勢可以提供有價值的資訊。 然而,詳細的日誌和訓練的中間指標目前只提供給那些目睹它的人,這阻礙了對 LLM 的全面研究。 這些統計資訊通常包含難以檢測的關鍵見解。 即使對這些度量的方差計算進行簡單分析,也可以揭示重要的發現。 例如,GLM研究團隊提出了一種梯度收縮演算法,該演算法通過分析梯度規範行為來有效處理損失峰值和NAN損失。
amber
Amber 是 LLM360 系列的第乙個成員,同時發布了其微調版本:Amberchat 和 AmberSafe。
資料和模型詳細資訊
表 2 列出了琥珀色包含 1預訓練資料集的 26 T token 的詳細資訊,包括資料的預處理、格式、資料混合比例,以及 Amber 的架構細節和具體的預訓練超引數。 請參考專案主頁上的LLM360庫。
Amber 使用與 LLAMA 7B4 一致的模型架構,表 3 總結了 LLM 的詳細架構配置。
在預訓練過程和超引數方面,研究人員盡可能地遵循了LLAMA的預訓練超引數。 Amber 使用超引數 = 0 的 ADAW 優化器進行訓練。9,β₂= 0.95。同時,研究人員還發布了幾個微調版本的Amber:AmberChat和AmberSafe。 Amberchat 基於 WizardLM 的指令訓練資料集微調。 更多詳情,請閱讀原文。
實驗和結果
研究人員使用了Open LLM排名中的四個基準資料集來評估Amber的表現。 如圖 4 所示,在 Hellaswag 和 ARC 中,Amber 的分數在預訓練期間單調增加,而 TruthfulQA 的分數隨著訓練的進行而降低。 在 MMLU 資料集中,Amber 的分數在預訓練的初始階段下降,然後開始上公升。
在表 4 中,研究人員將 Amber 的模型效能與在類似時間段內訓練的模型進行了比較,例如 Openllama、Redpajama-Incite、Falcon、MPT 等。 許多模型的靈感來自駱駝。 正如你所看到的,Amber 在 MMLU 上的得分更高,但在 ARC 上的表現並不好。 與其他類似型號相比,Amber 的表現相對較強。
crystalcoder
LLM360系列的第二個成員是Crystalcoder。
Crystalcoder 是 1在 4 個 T 標記上訓練的 7b 語言模型實現了編碼和語言能力之間的平衡。 與大多數以前的 LLM 不同,Crystalcoder 通過仔細混合文字和資料進行訓練,以最大限度地提高這兩個領域的效用。 與 Code Llama 2 相比,CrystalCoder 的資料是在預訓練過程的早期攝取的。 此外,研究人員還對 Crystalcoder 進行了 Python 和 Web 程式語言的訓練,以提高其作為程式設計助手的實用性。
模型架構
Crystalcoder 使用與 Llama 7B 非常相似的架構,並增加了最大更新引數化 (MUP)。 除了這種特定的引數化之外,研究人員還進行了一些修改。 此外,研究人員還使用 LayerNorm 而不是 RMSNORM,因為 CG-1 架構允許高效計算 LayerNorm。
實驗和結果
如圖 6 所示,該模型在 Open LLM 排行榜中的四個基準資料集以及編碼基準資料集上進行了基準測試。
從表 5 中可以看出,Crystalcoder 在語言任務和 ** 任務之間取得了很好的平衡。
analysis360
Pythia等人先前的研究表明,通過分析模型的中間檢查點,可以進行深入研究。 研究人員希望LLM360也能為社群提供有用的參考和研究資源。 為此,他們發布了 Analysis360 專案的初始版本,這是乙個有組織的儲存庫,用於對模型行為進行多方面分析,包括模型特徵和下游評估結果。
作為分析一系列模型檢查點的乙個例子,研究人員對LLM的記憶進行了初步研究。 最近的研究表明,LLM 可以記住大部分訓練資料,這些資料可以通過適當的提示進行提取。 這種記憶不僅存在洩露個人訓練資料的問題,而且如果訓練資料包含重複性或特異性,它還會降低 LLM 的效能。 研究人員公布了所有的檢查點和資料,因此他們可以在整個訓練階段對記憶進行全面分析。
以下是本文使用的記憶評分方法,它代表了長度 l 的後續標記在長度 k 的提示中的準確性。 有關記憶體分數設定的更多資訊,請參閱原文。
圖 7 顯示了 10 個選定檢查點的記憶體分數分布。
研究人員根據選定的檢查點對資料塊進行分組,並在圖 8 中繪製了每個檢查點的每個資料塊組的記憶體分數。 他們發現,琥珀檢查點比以前的資料更能記住最新的資料。 此外,對於每個塊,記憶分數在額外訓練後略有下降,但之後繼續上公升。
圖 9 說明了序列之間在記憶體分數和可提取 k 值方面的相關性。 可以看出,檢查點之間存在很強的相關性。
總結
研究人員總結了關於Amber和Crystalcoder的觀察結果和一些啟示。 他們說,預訓練是一項計算密集型任務,許多學術實驗室或小型機構無法承擔。 他們希望 LLM360 能夠全面了解 LLM 預培訓期間發生的事情,而不必弄髒他們的手。
更多詳情,請閱讀原文。