由機器之心報告。
編輯:杜薇、小舟
在小打大技術的發展路線上,Microsoft一直在前行。上個月,Microsoft首席執行官納德拉在 Ignite 大會上宣布,他自主研發的小型模型 phi-2 將完全開源,在常識推理、語言理解和邏輯推理方面的效能將得到顯著提公升。
今天,Microsoft公布了有關 Phi-2 模型的更多細節以及一種新的提示技術 Promptbase。 27 億引數模型在大多數常識推理、語言理解、數學和編碼任務上超過了 LLAMA2 7B、LLAMA2 13B、MISTRAL 7B,與 LLAMA2 70B 的差距正在縮小(甚至更好)。
同時,phi-2的小尺寸可以在膝上型電腦、手機等移動裝置上執行。 納德拉表示,Microsoft很高興能與開發人員分享其一流的小語言模型(SLM)和SOTA提示技術。
今年 6 月,Microsoft 在一篇題為“教科書是你所需要的一切”的文章中,用教科書質量的資料訓練了乙個只有 7B 代幣大小的 1。3b 引數模型 – phi-1。 儘管在資料集和模型大小方面比競爭模型小幾個數量級,但 Phi-1 的pass@1為 50。 在 Humaneval 上6% 準確度, 555%。Phi-1 證明,高質量的小資料可以帶來良好的模型效能。
次年9月,Microsoft出版了教科書《All You Need II: Phi-1》5 技術報告“,進一步研究了高質量小資料的潛力。 文字建議 phi-15. 13億個引數,適用於Q&A、**等場景。
如今,27 億引數的 PHI-2 再次使用小板板,提供出色的推理和語言理解能力,展示了低於 130 億引數的底層語言模型的 SOTA 效能。 得益於模型擴充套件和訓練資料管理方面的創新,phi-2 在複雜的基準測試中可以與模型相媲美,甚至超過其大小的 25 倍。
Microsoft表示,PHI-2將成為研究人員進行可解釋性探索、安全性改進或微調實驗的理想模型。 Microsoft 已在 Azure AI Studio 模型目錄中提供 PHI-2,以促進語言模型的開發。
PHI-2 主要亮點
語言模型規模增加到 1000 億個引數確實解鎖了許多新功能,並重新定義了自然語言處理的格局。 但仍然存在乙個問題:這些新功能是否也可以通過訓練策略選擇(例如資料選擇)在較小的模型上實現?
Microsoft 的答案是 phi 系列模型,它訓練小型語言模型以實現與大型模型類似的效能。 PHI-2 主要在兩個方面打破了傳統語言模型的縮放規則。
首先,訓練資料的質量對模型效能起著至關重要的作用。 Microsoft 通過專注於教科書質量資料將這種感知發揮到極致,並在其訓練資料中建立了乙個專門建立的綜合資料集,以教授模型常識知識和推理,例如科學、日常活動、心理學等。 此外,它還通過精心挑選的網路資料進一步擴充套件了其培訓語料庫,這些資料根據教育價值和內容質量進行過濾。
其次,Microsoft利用創新技術將 13 億個引數擴充套件到 phi-15 逐步將知識嵌入到 27 億引數 phi-2 中。 這種大規模的知識轉移加速了訓練融合,並顯著提高了 PHI-2 基準分數。
下圖 2 顯示了 phi-2 與 phi-1 的對比5 之間的比較,除了 BBH(3 次嬰兒床)和 MMLU(5 次)外,所有其他任務都使用 0 次進行評估。
培訓詳情
Phi-2 是乙個基於 Transformer 的模型,旨在用於下乙個單詞,在合成資料集和 Web 資料集上進行 NLP 和編碼訓練,並在 96 個 A100 GPU 上花費了 14 天。
PHI-2是乙個基礎模型,與人類反饋強化習(RLHF)不一致,並且沒有根據指令進行微調。 儘管如此,與已經調整的現有開源模型相比,PHI-2在毒性和偏倚方面表現更好,如下圖3所示。
實驗評估
首先,該研究在多個類別的學術基準上對 PHI-2 與通用語言模型進行了實驗比較,包括:
big bench hard (bbh) (3 shot with cot)
常識推理(piqa、winogrande、arc easy and challenge、siqa),
語言理解(hellaswag、openbookqa、mmlu(5 發)、squadv2(2 發)、boolq)
數學(gsm8k(8 發))。
編碼(Humaneval,MBPP(3-Shot))。
PHI-2 只有 27 億個引數,在各種聚合基準上優於 Mistral 和 LLAMA2 模型的 7b 和 13b。 值得一提的是,與大 25-70 倍的 LLAMA2-70B 模型相比,PHI-2 在多步推理任務(即編碼和數學)中取得了更好的效能。
此外,儘管型號較小,但 Phi-2 的效能可與谷歌最近發布的 Gemini Nano 2 相媲美。
由於許多公共基準測試可能會洩漏到訓練資料中,研究團隊認為,測試語言模型效能的最佳方法是在特定用例上對其進行測試。 因此,該研究使用多個專有的Microsoft資料集和任務評估了PHI-2,並再次將其與MISTRAL和LLAMA-2進行了比較,平均而言,PH-2優於MISTRAL-7B,MISTRAL-7B優於LLAMA2模型(7B,13B,70B)。
此外,研究團隊還對研究界常用的提示進行了廣泛的測試。 phi-2的效能符合預期。 例如,對於測試模型解決物理問題的能力(最近用於評估 Gemini Ultra 模型)的提示,phi-2 給出以下結果:
部落格鏈結: