Microsoft小模型以27億引數擊敗大模型,手機可以執行

Mondo 科技 更新 2024-01-29

由機器之心報告。

編輯:杜薇、小舟

在小打大技術的發展路線上,Microsoft一直在前行。

上個月,Microsoft首席執行官納德拉在 Ignite 大會上宣布,他自主研發的小型模型 phi-2 將完全開源,在常識推理、語言理解和邏輯推理方面的效能將得到顯著提公升。

今天,Microsoft公布了有關 Phi-2 模型的更多細節以及一種新的提示技術 Promptbase。 27 億引數模型在大多數常識推理、語言理解、數學和編碼任務上超過了 LLAMA2 7B、LLAMA2 13B、MISTRAL 7B,與 LLAMA2 70B 的差距正在縮小(甚至更好)。

同時,phi-2的小尺寸可以在膝上型電腦、手機等移動裝置上執行。 納德拉表示,Microsoft很高興能與開發人員分享其一流的小語言模型(SLM)和SOTA提示技術。

今年 6 月,Microsoft 在一篇題為“教科書是你所需要的一切”的文章中,用教科書質量的資料訓練了乙個只有 7B 代幣大小的 1。3b 引數模型 – phi-1。 儘管在資料集和模型大小方面比競爭模型小幾個數量級,但 Phi-1 的pass@1為 50。 在 Humaneval 上6% 準確度, 555%。Phi-1 證明,高質量的小資料可以帶來良好的模型效能。

次年9月,Microsoft出版了教科書《All You Need II: Phi-1》5 技術報告“,進一步研究了高質量小資料的潛力。 文字建議 phi-15. 13億個引數,適用於Q&A、**等場景。

如今,27 億引數的 PHI-2 再次使用小板板,提供出色的推理和語言理解能力,展示了低於 130 億引數的底層語言模型的 SOTA 效能。 得益於模型擴充套件和訓練資料管理方面的創新,phi-2 在複雜的基準測試中可以與模型相媲美,甚至超過其大小的 25 倍。

Microsoft表示,PHI-2將成為研究人員進行可解釋性探索、安全性改進或微調實驗的理想模型。 Microsoft 已在 Azure AI Studio 模型目錄中提供 PHI-2,以促進語言模型的開發。

PHI-2 主要亮點

語言模型規模增加到 1000 億個引數確實解鎖了許多新功能,並重新定義了自然語言處理的格局。 但仍然存在乙個問題:這些新功能是否也可以通過訓練策略選擇(例如資料選擇)在較小的模型上實現?

Microsoft 的答案是 phi 系列模型,它訓練小型語言模型以實現與大型模型類似的效能。 PHI-2 主要在兩個方面打破了傳統語言模型的縮放規則。

首先,訓練資料的質量對模型效能起著至關重要的作用。 Microsoft 通過專注於教科書質量資料將這種感知發揮到極致,並在其訓練資料中建立了乙個專門建立的綜合資料集,以教授模型常識知識和推理,例如科學、日常活動、心理學等。 此外,它還通過精心挑選的網路資料進一步擴充套件了其培訓語料庫,這些資料根據教育價值和內容質量進行過濾。

其次,Microsoft利用創新技術將 13 億個引數擴充套件到 phi-15 逐步將知識嵌入到 27 億引數 phi-2 中。 這種大規模的知識轉移加速了訓練融合,並顯著提高了 PHI-2 基準分數。

下圖 2 顯示了 phi-2 與 phi-1 的對比5 之間的比較,除了 BBH(3 次嬰兒床)和 MMLU(5 次)外,所有其他任務都使用 0 次進行評估。

培訓詳情

Phi-2 是乙個基於 Transformer 的模型,旨在用於下乙個單詞,在合成資料集和 Web 資料集上進行 NLP 和編碼訓練,並在 96 個 A100 GPU 上花費了 14 天。

PHI-2是乙個基礎模型,與人類反饋強化習(RLHF)不一致,並且沒有根據指令進行微調。 儘管如此,與已經調整的現有開源模型相比,PHI-2在毒性和偏倚方面表現更好,如下圖3所示。

實驗評估

首先,該研究在多個類別的學術基準上對 PHI-2 與通用語言模型進行了實驗比較,包括:

big bench hard (bbh) (3 shot with cot)

常識推理(piqa、winogrande、arc easy and challenge、siqa),

語言理解(hellaswag、openbookqa、mmlu(5 發)、squadv2(2 發)、boolq)

數學(gsm8k(8 發))。

編碼(Humaneval,MBPP(3-Shot))。

PHI-2 只有 27 億個引數,在各種聚合基準上優於 Mistral 和 LLAMA2 模型的 7b 和 13b。 值得一提的是,與大 25-70 倍的 LLAMA2-70B 模型相比,PHI-2 在多步推理任務(即編碼和數學)中取得了更好的效能。

此外,儘管型號較小,但 Phi-2 的效能可與谷歌最近發布的 Gemini Nano 2 相媲美。

由於許多公共基準測試可能會洩漏到訓練資料中,研究團隊認為,測試語言模型效能的最佳方法是在特定用例上對其進行測試。 因此,該研究使用多個專有的Microsoft資料集和任務評估了PHI-2,並再次將其與MISTRAL和LLAMA-2進行了比較,平均而言,PH-2優於MISTRAL-7B,MISTRAL-7B優於LLAMA2模型(7B,13B,70B)。

此外,研究團隊還對研究界常用的提示進行了廣泛的測試。 phi-2的效能符合預期。 例如,對於測試模型解決物理問題的能力(最近用於評估 Gemini Ultra 模型)的提示,phi-2 給出以下結果:

部落格鏈結:

相關問題答案

    手機可以執行!Microsoft的小模型擊敗了 Llama 2,96 個 A100 GPU 訓練了 14 天,引數大小只有 27 億

    聰明的東西。作者 程倩.編輯 李水清.智東月日 昨日晚間,Microsoft展示了小模特大招!Microsoft 發布了乙個 億引數的小語言模型 phi ,該模型已經過研究人員的測試PHI 在引數尺度小於 億的模型中展示了最先進的效能 在效能方面,PHI 在大板凳硬 BBH 常識推理 語言理解 數學...

    中文模型 AskBot 大模型助力企業提供智慧型服務

    隨著人工智慧技術的不斷發展,越來越多的企業正在利用智慧型服務來提公升工作效率和員工體驗。其中,AskBot大模型作為整合了多個大語言模型的人工智慧解決方案,已成為企業實現智慧型服務的重要工具。下面將從中文語言模型的角度出發,深化askbot大模型在企業智慧型服務中的應用和優勢。.AskBot大模型介...

    谷歌發布AI模型雙子座 小公主還沒長大,就被逼出內閣

    在OpenAI高調發布GPT 的幾個月前,業內有傳言稱,谷歌旗下的人工智慧公司Deepmind坐不住了,終於要拿出藏在閨房裡很久的Gemini模型。當地時間月日,谷歌召開了雙子座發布會,這也是該公司迄今為止在人工智慧領域最高階別的發布會,正式向競爭對手OpenAI和Microsoft宣戰,爭奪人工智...

    嘗試小頂茶 體驗AI模型的魅力和新潮的賣茶玩法

    ...

    大型語言模型簡介:基於 Amazon Bedrock 的概述

    本文介紹了基於 Bedrock 的大型語言模型,Bedrock 是亞馬遜雲科技推出的大型語言模型和生成式 AI 系列。大型語言模型是具有數十億個引數 B 的預訓練語言模型 例如 GPT Bloom Llama 該模型可用於各種自然語言處理任務,例如文字生成 機器翻譯和自然語言理解。大型語言模型的這些...