Stability AI 最近發布了 Stable Code 3B,這是一種輕量級程式設計輔助模型,匯集了多項創新技術。 在保持輕量級的同時,它表現出與 Codellama 7B 等大型型號相當的效能,這一功能使其能夠在無 GPU 的環境中執行,從而大大拓寬了其應用範圍。
Stable Code 3B 是乙個 30 億引數的程式設計輔助模型,其核心是能夠在膝上型電腦上本地執行,而無需專用 GPU。 此功能不僅降低了進入門檻,還為開發人員提供了更大的靈活性。 與 Codellama 7B 等大型型號相比,Stable Code 3B 的尺寸小了 60%,但在各種程式設計任務中表現出相當的效能。
在穩定程式碼 3b 的訓練過程中使用了先進的技術和策略。 該模型基於 Stable LM 3B 進行訓練,其中 Stable LM 3B 的訓練代幣數量高達 4 萬億。 此外,Stable Code 專門針對來自軟體工程的特定資料進行訓練,使其在處理與程式設計相關的任務時更加準確和有效。 在模型架構方面,Stable Code 3B 採用了僅解碼器的 Transformer 架構,類似於 LLAMA 架構,但有一些關鍵的調整。 例如,將位置嵌入中的旋轉位置嵌入應用於標題嵌入維度的前 25%,以提高吞吐量; GPTNEOX Tokenizer 的改進版本也用於訓練 FIM(Fill in the Middle)函式。
穩定碼 3b 的訓練集由多個開源的大規模資料集組成,如 Falcon RefinedWeb、CommitPackft 等。 訓練過程是在 Stability AI 集群上進行的,使用了 256 個 NVIDIA A100 40GB GPU。 它使用 GPT-NEOX 分支進行訓練,並結合了 Flash-Attention、Swiglu 等技術。 在效能方面,Stable Code 3B 在 MultiPL-E 基準測試中實現了 SOTA 效能,尤其是在 Python、C++ 和 J**Ascript 等多種程式語言中。 這種表現歸功於訓練過程中使用的創新技術和優化策略。
穩定程式碼3B的推出,無疑是程式設計輔助領域的重大突破。 它不僅在輕量化設計方面取得了成功,而且在效能上也可與大型型號相媲美。 對於開發人員來說,這意味著即使在資源有限的環境中,也能提供高效便捷的程式設計輔助服務。 穩定碼3B的推出,預示著輕量級模型在AI領域的崛起,為未來的發展趨勢奠定了堅實的基礎。