2月6日,阿里發布通義千問1版本 5 由 6 個大小模型組成,“qwen”是指基礎語言模型,“qwen-chat”是指通過 SFT(監督微調)和 RLHF(強化學習人類反饋)等訓練後技術訓練的聊天模型。
模型概述
在這個 qwen1在版本 5 中,我們開源了 05b、1.發布了8b、4b、7b、14b、72b等6個不同尺度的鹼基和聊天,並一如既往地發布了各尺度對應的定量模型。
以下是此更新的一些亮點:
支援 32k 上下文長度; 開啟基礎 + 聊天模型的檢查點; 可與變壓器一起在本地執行; 同時發布了 GPTQ int-4、int8、AWQ 和 GGUF 權重。 績效評估基本能力qwen1.5在多個基準測試中表現出出色的效能。 無論是在語言理解、生成、推理能力方面,還是在多語言和人類偏好生產方面。
qwen1.5-72B 在所有基準測試中都遠遠優於 LLAMA2-70B,展示了其在語言理解、推理和數學方面的卓越能力。
多語種能力選取來自歐洲、東亞和東南亞的12種不同語言,對BASE模型qwen1的多語言能力進行綜合評價5 基礎模型在 12 種不同語言的多語言方面表現出色,在考試、理解、翻譯和數學等各個維度的評估中都取得了優異的成績,並可用於翻譯、語言理解和多語言聊天等下游應用。
人類偏好對齊儘管落後於 GPT-4-Turbo,但最大的 QWEN15 型號 qwen15-72B-Chat 在 MT-Bench 和 Alpaca-Eval V2 上都表現出色,優於 Claude-21、gpt-3.5-turbo-0613、mixtral-8x7b-ininstruction 和 tulu 2 DPO 70b,與 Mistral Medium 相當。
位於 qwen15 與 HuggingFace Transformers 庫整合。 從 437.從版本 0 開始,您可以直接使用本機轉換器庫使用 qwen1,而無需載入任何自定義項(指定信任遠端程式碼選項)。5. 像這樣載入模型:
from transformers import automodelforcausallm# this is what we previously usedmodel = automodelforcausallm.from_pretrained("qwen/qwen-7b-chat", device_map="auto", trust_remote_code=true)# this is what you can use nowmodel=automodelforcausallm.from_pretrained("qwen/qwen1.5-7b-chat",device_map="auto")
專案位址 github: