Microsoft Small Language Model 2 7B 可以擊敗 Llama 2 70B！96 架 A100 在 14 天內訓練了 Phi 2

編輯：執行艾倫大模型現在真的越來越多了！

11 月，OpenAI 首先用 GPTS 改變了 GPT shell 的壽命，然後不惜犧牲董事會來對抗一波流量。

谷歌被迫在年底前匆匆發布超大模型雙子座，捲起多模態，甚至不惜偽造。

就在今天，Microsoft正式宣布了 phi-2！，它在 11 月的 Ignite 大會上進行了預覽

帶 27b的小型語言模型（SLM）Phi-2已經突破了幾乎所有13b以下的大型模型，包括谷歌新發布的Gemini Nano 2。

通過模型擴充套件和訓練資料管理方面的創新，PHI-2 展示了出色的推理和語言理解能力，在複雜的基準測試中，PH-2 能夠匹配甚至略勝於比自身大 25 倍的模型。

它以非常纖薄的尺寸使用，並獲得了良好的效能。

這使得研究人員和模型開發人員可以輕鬆地使用 PHI-2 對其他任務進行可解釋性、安全性改進和微調。

Phi-2 現在可通過 Azure AI Studio 訪問。

但值得注意的是，與其他開源模型相比，它基本上是基於 Apache 2 的0 許可協議，可支援商業用途。 PHI-2 只能用於研究目的，不能在市場上買到。

Microsoft最強小模型來了！

大型語言模型現在已經發展到數千億個引數，其龐大的規模帶來了強大的效能，改變了自然語言處理的格局。但是，小型語言模型能否通過適當的訓練方法（例如資料選擇）實現類似的功能？

Microsoft的PHI-2提供了答案。

PHI-2 打破了傳統語言模型的縮放定律，測試分數可以PK乙個比自身大 25 倍的模型。

Microsoft對PHI-2的成功提出了兩個關鍵要點：

第 1 點：訓練資料質量在模型效能中起著至關重要的作用。

作為大型模型開發人員的共識，Microsoft的研究人員更進一步 - 使用教科書質量的資料。

在 PHI-1 發布時，開發團隊提出了乙個想法，即教科書就是您所需要的。

在PHI-2的開發中，該團隊將這一點發揮到了極致。

PHI-2 使用的訓練資料由合成資料集組成,——專門用於教授模型的常識推理和常識（科學、日常活動、心理理論等）。

此外，研發團隊根據教育價值和內容質量篩選精心挑選的網路資料，進一步擴充套件訓練語料庫。

第二點：用創新技術擴充套件模式。

取 1Phi-1的3b引數5 作為基礎，並將其知識嵌入到 2phi-2 中的 7b 引數。這種大規模的知識轉移不僅加速了訓練的收斂，而且顯著提高了phi-2的基準分數。

上圖顯示了 phi-2 和 phi-15 測試比較（BBH 和 MMLU 分別使用 3 和 5 個 COT（思維鏈））。

我們可以看到，在創新技術的支援下，PHI-2的效能得到了顯著提公升。

96 件 A100 練習了 14 天。

Phi-2 是乙個基於 transformer 的模型，它使用 1用於訓練的 4T 令牌（包括用於 NLP 和編碼的合成資料集和 Web 資料集）。 PHY-2 的訓練使用了 96 個 A100 GPU，耗時 14 天。

PHI-2是乙個基礎模型，與人類反饋的強化習（RLHF）不一致，並且沒有進行微調。

儘管如此，與現有的開源模型相比，PHI-2 在毒性和偏倚方面具有更好的效能。 – 這是由於使用了量身定製的資料整理技術。

上圖顯示了根據 Toxigen 的 13 個人口統計資料計算得出的安全評分。

選擇了 6541 個句子的子集，並根據複雜性和句子毒性以 0 到 1 的等級進行評分。分數越高，模型產生有毒句子的可能性就越小。

下面，研發團隊總結了 PHI-2 在學術基準上相對於流行語言模型的效能。

基準測試涵蓋多個類別，Big Bench Hard （BBH）（使用 COT 進行 3 次測試）、常識推理（PIQA、WinoGrande、Arc Easy and Challenge、SIQA）、語言理解（Hellaswag、OpenBookQA、MMLU（5 次）、SquadV2（2 次）、Boolq）、數學（GSM8K（8 次））和編碼（Humaneval、MBPP（3 次））

Phi-2 只有 2 個在各種基準測試中，7b的引數優於Mistral 7b和LLAMA-2 13b的模型。

此外，與 25 倍的 LLAMA-2-70b 模型相比，它在多步推理任務（即編碼和數學）上的表現更好。

此外，Phi-2 的效能也優於最近發布的 Google Gemini Nano 2，儘管它仍然略小。

考慮到許多模型測試基準可能已被訓練資料汙染，研究團隊試圖避免在PHI-1開發過程中訓練資料被汙染的可能性。

Microsoft研究團隊一致認為，判斷語言模型效能的最佳方法是在實際用例中對其進行測試。

本著這種務實的精神，Microsoft 還使用幾個專有的 Microsoft 資料集和任務評估了 PHI-2，並將其與 MISTRAL 和 LLAMA-2 進行了重新比較。結果還表明，PHI-2的平均效能優於MISTRAL-7B和LLAMA-2家族（7b、13b和70b）。

除了這些基準測試之外，Microsoft忍不住深入研究了谷歌現在備受批評的 Gemini 演示，該演示展示了谷歌即將推出的最強大的 AI 模型 Gemini Ultra 如何解決相當複雜的物理問題，甚至糾正學生在這些問題上的錯誤。

事實證明，儘管引數數量比 Gemini Ultra 少得多，但 PHI-2 能夠正確回答問題並以相同的提示糾正學生。

上圖顯示了 phi-2 在乙個簡單的物理問題上的輸出，包括近似正確的平方根計算。

與雙子座的測試類似，Phi-2 會用學生的錯誤答案進一步提問，看看 Phi-2 是否能識別出 **.

我們可以看到，儘管 phi-2 沒有針對聊天或指令跟蹤進行微調，但它可以識別問題。

然而，應該注意的是，谷歌的演示**使用學生手寫文字的影象作為輸入，而 phi-2 測試使用文字作為輸入。

魔術變幻提示專案，GPT-4逆襲雙子座超

Microsoft發布了一項關於提示工程的研究，MedPrompt。他們使用創新的 LLM 技巧來學習以前需要專門培訓或微調才能在醫學領域實現效能提公升的工程技術。

*位址：在此提示專案的基礎上，Microsoft 發現提示策略可以產生更普遍的效果。最終，GPT-4通過Medprompt的修改版本啟動，Microsoft在MMLU上取得了SOTA結果。

它只是比 Google Gemini 發布時好一點。

Microsoft利用這個無意的結果，狙擊了谷歌在雙子座發布時cot@32擊敗 GPT-4 5 Shot。

這是一場秘密的比賽，但還是要表現出舉重的感覺，就像班上兩個尖子生在學習時因為比賽而互相撕扯的場景。

網友熱議。此前，Microsoft大佬們在MT Bench上公布了多款機型的測試結果：

我們可以看到只有 2 個7B PHI-2系列的效能還是很不錯的。

對於Phi-2的表現，網友們也毫不猶豫地讚不絕口：

哇，Phi-2 聽起來像是遊戲規則的改變者！它足夠強大，可以與大型語言模型相媲美，但又足夠小，可以在膝上型電腦或移動裝置上執行，這太棒了。這為裝置有限的裝置上的自然語言處理開闢了乙個全新的世界。」

有網友表達了他們的焦慮：

有沒有人想出如何在 Mac 上執行 Microsoft 的新 Phi-2？」

當然，也有更犀利的網友拔出了openai：

如果你一開始就不給模型垃圾，似乎你不必擔心對齊問題。 @openai 」

也有網友對小語言模型的前景抱有希望：

非常希望 Phi-3 在所有任務中都優於 GPT-35」。

參考文獻：優質作者名單

Microsoft Small Language Model 2 7B 可以擊敗 Llama 2 70B！96 架 A100 在 14 天內訓練了 Phi 2

相關問題答案

Microsoft小模型以27億引數擊敗大模型，手機可以執行

手機可以執行！Microsoft的小模型擊敗了 Llama 2,96 個 A100 GPU 訓練了 14 天，引數大小只有 27 億

中文模型 AskBot 大模型助力企業提供智慧型服務

大型語言模型簡介：基於 Amazon Bedrock 的概述

UCAM，大型語言模型AI產品經理的權威證書