Microsoft小模型以27億引數擊敗大模型，手機可以執行

由機器之心報告。

編輯：杜薇、小舟

在小打大技術的發展路線上，Microsoft一直在前行。

上個月，Microsoft首席執行官納德拉在 Ignite 大會上宣布，他自主研發的小型模型 phi-2 將完全開源，在常識推理、語言理解和邏輯推理方面的效能將得到顯著提公升。

今天，Microsoft公布了有關 Phi-2 模型的更多細節以及一種新的提示技術 Promptbase。 27 億引數模型在大多數常識推理、語言理解、數學和編碼任務上超過了 LLAMA2 7B、LLAMA2 13B、MISTRAL 7B，與 LLAMA2 70B 的差距正在縮小（甚至更好）。

同時，phi-2的小尺寸可以在膝上型電腦、手機等移動裝置上執行。納德拉表示，Microsoft很高興能與開發人員分享其一流的小語言模型（SLM）和SOTA提示技術。

今年 6 月，Microsoft 在一篇題為“教科書是你所需要的一切”的文章中，用教科書質量的資料訓練了乙個只有 7B 代幣大小的 1。3b 引數模型 – phi-1。儘管在資料集和模型大小方面比競爭模型小幾個數量級，但 Phi-1 的pass@1為 50。在 Humaneval 上6% 準確度， 555%。Phi-1 證明，高質量的小資料可以帶來良好的模型效能。

次年9月，Microsoft出版了教科書《All You Need II： Phi-1》5 技術報告“，進一步研究了高質量小資料的潛力。文字建議 phi-15. 13億個引數，適用於Q&A、**等場景。

如今，27 億引數的 PHI-2 再次使用小板板，提供出色的推理和語言理解能力，展示了低於 130 億引數的底層語言模型的 SOTA 效能。得益於模型擴充套件和訓練資料管理方面的創新，phi-2 在複雜的基準測試中可以與模型相媲美，甚至超過其大小的 25 倍。

Microsoft表示，PHI-2將成為研究人員進行可解釋性探索、安全性改進或微調實驗的理想模型。 Microsoft 已在 Azure AI Studio 模型目錄中提供 PHI-2，以促進語言模型的開發。

PHI-2 主要亮點

語言模型規模增加到 1000 億個引數確實解鎖了許多新功能，並重新定義了自然語言處理的格局。但仍然存在乙個問題：這些新功能是否也可以通過訓練策略選擇（例如資料選擇）在較小的模型上實現？

Microsoft 的答案是 phi 系列模型，它訓練小型語言模型以實現與大型模型類似的效能。 PHI-2 主要在兩個方面打破了傳統語言模型的縮放規則。

首先，訓練資料的質量對模型效能起著至關重要的作用。 Microsoft 通過專注於教科書質量資料將這種感知發揮到極致，並在其訓練資料中建立了乙個專門建立的綜合資料集，以教授模型常識知識和推理，例如科學、日常活動、心理學等。此外，它還通過精心挑選的網路資料進一步擴充套件了其培訓語料庫，這些資料根據教育價值和內容質量進行過濾。

其次，Microsoft利用創新技術將 13 億個引數擴充套件到 phi-15 逐步將知識嵌入到 27 億引數 phi-2 中。這種大規模的知識轉移加速了訓練融合，並顯著提高了 PHI-2 基準分數。

下圖 2 顯示了 phi-2 與 phi-1 的對比5 之間的比較，除了 BBH（3 次嬰兒床）和 MMLU（5 次）外，所有其他任務都使用 0 次進行評估。

培訓詳情

Phi-2 是乙個基於 Transformer 的模型，旨在用於下乙個單詞，在合成資料集和 Web 資料集上進行 NLP 和編碼訓練，並在 96 個 A100 GPU 上花費了 14 天。

PHI-2是乙個基礎模型，與人類反饋強化習（RLHF）不一致，並且沒有根據指令進行微調。儘管如此，與已經調整的現有開源模型相比，PHI-2在毒性和偏倚方面表現更好，如下圖3所示。

實驗評估

首先，該研究在多個類別的學術基準上對 PHI-2 與通用語言模型進行了實驗比較，包括：

big bench hard (bbh) (3 shot with cot)

常識推理（piqa、winogrande、arc easy and challenge、siqa），

語言理解（hellaswag、openbookqa、mmlu（5 發）、squadv2（2 發）、boolq）

數學（gsm8k（8 發））。

編碼（Humaneval，MBPP（3-Shot））。

PHI-2 只有 27 億個引數，在各種聚合基準上優於 Mistral 和 LLAMA2 模型的 7b 和 13b。值得一提的是，與大 25-70 倍的 LLAMA2-70B 模型相比，PHI-2 在多步推理任務（即編碼和數學）中取得了更好的效能。

此外，儘管型號較小，但 Phi-2 的效能可與谷歌最近發布的 Gemini Nano 2 相媲美。

由於許多公共基準測試可能會洩漏到訓練資料中，研究團隊認為，測試語言模型效能的最佳方法是在特定用例上對其進行測試。因此，該研究使用多個專有的Microsoft資料集和任務評估了PHI-2，並再次將其與MISTRAL和LLAMA-2進行了比較，平均而言，PH-2優於MISTRAL-7B，MISTRAL-7B優於LLAMA2模型（7B，13B，70B）。

此外，研究團隊還對研究界常用的提示進行了廣泛的測試。 phi-2的效能符合預期。例如，對於測試模型解決物理問題的能力（最近用於評估 Gemini Ultra 模型）的提示，phi-2 給出以下結果：

部落格鏈結：

Microsoft小模型以27億引數擊敗大模型，手機可以執行

相關問題答案

手機可以執行！Microsoft的小模型擊敗了 Llama 2,96 個 A100 GPU 訓練了 14 天，引數大小只有 27 億

中文模型 AskBot 大模型助力企業提供智慧型服務

谷歌發布AI模型雙子座小公主還沒長大，就被逼出內閣

嘗試小頂茶體驗AI模型的魅力和新潮的賣茶玩法

大型語言模型簡介：基於 Amazon Bedrock 的概述

Microsoft小模型以27億引數擊敗大模型，手機可以執行

相關問題答案

手機可以執行！Microsoft的小模型擊敗了 Llama 2,96 個 A100 GPU 訓練了 14 天，引數大小只有 27 億

中文模型 AskBot 大模型助力企業提供智慧型服務

谷歌發布AI模型雙子座 小公主還沒長大，就被逼出內閣

嘗試小頂茶 體驗AI模型的魅力和新潮的賣茶玩法

大型語言模型簡介：基於 Amazon Bedrock 的概述

谷歌發布AI模型雙子座小公主還沒長大，就被逼出內閣

嘗試小頂茶體驗AI模型的魅力和新潮的賣茶玩法