據了解,APUS大型型號30 玲麗在中國基準評價榜c-eval中得分80分6分,中文能力超越GPT-4,在所有參與模型中排名第三,與原開源模型基準測試LLAMA2-70B相比。
值得注意的是,大資料國家工程實驗室由深圳大學牽頭,國家資訊中心、清華大學、騰訊科技共同建設。 此外,中科院陳國良院士、國家重點研發計畫專案首席科學家李建強等一批拔尖人才組成研發團隊,實驗室副主任沈琳琳教授領銜的凌力專案組支援模型的聯合培養和開源發布。
此次,APUS與國家大資料工程實驗室聯合訓練了開源APUS大模型30 Lingli中國大模型進一步推動了AI技術創新與國內場景應用的深化融合。 “靈力是中國為數不多的擁有700億引數規模的中國開源模型之一,相信它可以讓更多的中國開發者參與到人工智慧產業的浪潮中來。” “凌力專案組的李玉東博士說。
如您所見,apus 大型模型 30 靈力中文大模型在詞表大小和訓練語料方面進行了定製和優化,基於模組化增量預訓練框架開發,擴充套件了中文場景詞彙量,增加了對漢字和漢語符號的支援,實現了綜合性能,達到同級別開源模型的領先水平。 在語料庫訓練方面,APUS大模型30 玲麗使用優質的中英文公共資料源,包括五道、萬娟、MNBVC等,結合自研的資料選擇策略,形成混合語料庫,實現高效的模型訓練。 基於APUS鄭州智慧型計算中心的算力支援,APUS大模型30 Lingli 花了 3 個月的時間完成訓練,當前上下文長度設定為 4K(約 8,000-10,000 個漢字)。
此外,領力專案組還提出了課程學習策略,基於動態資料抽樣,調整訓練中的資料分布,實現模型的英語語言能力向漢語能力領域的平滑轉移,為高效能漢語大模型的訓練提供了有力的保障。
配備APUS大型Model 30 領力聯合發布開源,國產開源大模型,朝著構建中文場景大語言模型又邁出了重要一步。 此次合作也是雙方深化落實“為中國定製人工智慧大模型、積極構建人工智慧生態圈、將大模型應用與價值創造相結合”戰略的重要舉措。
據悉,APUS將繼續與國家大資料工程實驗室合作,推動模型的容量提公升和應用拓展,積極探索和深化大模型在工具使用、劇情生成與角色扮演、醫療等領域的專業能力,著力構建大模型生態, 讓為中國打造的AI大模式真正帶動中國AI產業高質量發展,實現價值共創,賦能千行百業。