Microsoft 宣布了 PHI-2,這是一種小型語言模型 (SLM),其效能優於 Meta 的 LLAMA 2、谷歌的 Gemini 和其他競爭對手。 該模型由Microsoft Research開發,具有出色的推理和語言理解能力。
研究人員進行了幾次測試並發現了它在某些任務上優於 Meta AI 和 Google AI
PHI-2 是基於 transformer 的模型系列的一部分,引數數量較少。 根據 Microsoft 的說法,其開發背後的想法是基於它可用的前提更廣泛模型(如 LLAMA 或 MISTRAL)的近似效能
為了讓您了解它的大小,PHY-2 有 27 億個引數,而 GPT-4 大約有 1 個引數7 萬億個引數。
儘管存在此限制,但 Microsoft 的 AI仍然匹配或優於大 25 倍的模型。在一系列數學和程式設計測試中,PHI-2 的表現優於 META 的 LLAMA 2。 創作者更進一步,將其與Gemini Nano 2進行了比較,後者以類似於谷歌人工智慧的方式成功解決了物理問題。
PHI-2 只有 27 億個引數,在多個基準測試中的引數 7b 和 13b 優於 Mistral 和 Llama-2 模型。 特別是,與 25-2-70b 模型相比,它在多步推理任務(即編碼和數學)中實現了更好的效能,後者高出 70 倍。他們提到了程式設計師。
秘訣在於訓練......Phi-2 使用資料集進行訓練,其中包括合成的 NLP 文字、從 Stack Overflow 獲得的子集、程式設計競賽等。
Microsoft提到,訓練資料的質量在模型效能中起著關鍵作用。 與 GPT-4 不同,Microsoft 將根據其教育價值篩選 Web 資料。
我們的訓練資料集包含專門建立的合成資料集,用於教授您的模型一般推理和一般知識,包括科學、日常活動、心理理論等。PHI-2 訓練歷時 14 天,使用了 96 塊 NVIDIA A100 顯示卡。 雖然沒有進一步的改進,但與LLAMA 2相比,SLM的反應毒性和偏差較小。 Microsoft Research表示已根據學術參考資料進行了廣泛測試不幸的是,PHI-2 僅適用於研究專案。 SLM 將作為 Azure AI Studio 的一部分提供,以鼓勵語言模型的開發。 目前的許可證不允許將其用於 ChatGPT 等商業應用程式。