樂天 上 1月29日
百川智慧型今日發布超千億引數大語言模型百川3,稱在CMMLU、Gaokao、Agi-Eval等多篇權威通用能力測評中,百川3展現了能力,尤其是在中文任務上超越了GPT-4。
基礎能力提公升,多項權威評測中文任務成績超越GPT-4
據百川情報稱,百川3在幾篇英文評測中表現良好,達到了接近GPT-4的水平。 在CMMLU、Gaokao、Humaneval和MBPP等多個中國評測榜單上,它超過了GPT-4。
此外,在MT-bench、IFEVAL等對齊榜單的評測中,百川3超越了GPT-35.克勞德等大型模特。
不同於百億、百億引數模型的訓練,對資料質量、訓練穩定性、千億以上引數模型的訓練效率的要求在訓練過程中要高出幾個數量級。 為了更好地解決相關問題,百川智慧型表示,在訓練過程中,提出了“動態資料選擇”、“重要性維護”、“非同步檢查點儲存”等多種創新技術手段和解決方案,提公升了百創3號的能力。
在高質量資料方面,傳統的資料篩選依賴於人工定義,通過過濾、質量評分、教科書過濾等方式對資料進行過濾。 百川智慧型認為,資料優化和取樣是乙個動態的過程,應該用模型本身的訓練過程來優化,而不是僅僅依靠人工進行先驗資料取樣和篩選。 為了全面提公升資料質量,百川智慧型設計了一套基於因果取樣的動態訓練資料選擇方案,可以在模型訓練過程中動態選擇訓練資料,提高資料質量。
在訓練穩定性方面,由於模型中引數數量龐大,引數超過1000億個,在訓練過程中經常會出現梯度**、損失、收斂不收斂等問題。
對此,百川智慧型提出了一種“重要性維護”(顯著一致性)的漸進式初始化方法,以保證模型訓練初始階段的穩定性。 此外,對模型訓練過程的監控方案進行優化,在梯度、損失等指標中引入引數“有效排名”的方法,提前發現訓練過程中的問題,大大加快了訓練問題的定位,保證了最終模型的收斂效果。 此外,為了保證超千億個GPU引數的模型高效穩定訓練,百川智慧型同步優化了模型的訓練穩定性和訓練框架,採用了“非同步檢查點儲存”機制,可以在不損失效能的情況下提高儲存頻率,減少機器故障對訓練任務的影響, 並使百川3號的穩定訓練時間達到乙個月以上,故障恢復時間不超過10分鐘。
在訓練效率方面,百川智慧型對超千億引數的模型並行訓練進行了一系列優化,如高度優化的繩索、擺動計算運算元; 引數通訊與計算的重疊在資料並行中實現,啟用值通訊與計算的重疊以序列並行實現,從而有效降低通訊時間的比例。 在流並行中引入將啟用值解除安裝到GPU的技術,解決了流並行中記憶體使用不均勻的問題,減少了流並行中的段數,並顯著降低了空化率。
通過這些技術創新,百川3訓練框架的效能比行業主流框架提公升了30%以上。
醫療資料集中代幣數量突破1000億,醫療容量接近GPT-4
從疾病診斷、疾病到患者護理和藥物研發,大模型不僅可以幫助醫生提高診療效率和質量,幫助患者獲得更好的服務和體驗,還可以幫助社會降低醫療成本和風險,幫助醫療資源實現普惠和平等權利。 此外,醫療問題專業性強,知識更新速度快,精度要求高,個體差異大,能充分體現大模型的各項能力,被百川智慧型稱為“大模型皇冠上的明珠”。
因此,OpenAI、谷歌等龍頭大型模型公司將醫療護理作為模型的重點訓練方向和績效考核的重要體系。 ChatGPT早在2023年2月就通過了美國醫學執照考試(USMLE),展現了其在醫療領域的實力。 谷歌更加重視醫療領域,在PALM模型的基礎上構建了大型醫療模型MED-PALM,迭代的MED-PALM 2在體檢MEDQA中得分超過80分,達到專家級。
在醫療領域,大型模型的全方位性起著至關重要的作用。 首先,其多模態學習能力可以整合文字、影象、聲音等多種型別的醫療資料,提供更全面、更準確的分析診斷。 其次,大型模型的深度推理能力可以幫助做出複雜的醫療決策。 此外,穩定的效能和最新的知識能力確保了醫療建議的可靠性和及時性。
同時,大型模型的語言理解和生成能力使它們能夠處理技術術語和複雜的句型。 最後,將模式識別和學習能力應用於大型模型,使他們能夠從複雜的醫療資料中學習和識別重要的模式和特徵。 因此,大型模型要想在醫學領域取得好成績並不容易,這不僅需要豐富的醫學知識、適當的提示,還需要模型本身優秀的邏輯推理能力。
為了給百川3注入豐富的醫學知識,百川智慧型在模型預訓練階段就構建了超千億個代幣的醫學資料集,包括醫學研究文獻、真實電子病歷資料、醫學領域的專業書籍和知識庫資源、醫療問題問答材料。 資料集涵蓋了從理論到實際操作,從基礎理論到臨床應用的醫學知識的方方面面,保證了模型在醫學領域的專業性和知識深度。
針對醫學知識刺激的問題,百川智慧型在推理階段對提示進行了系統的研究和調優,通過對任務的準確描述和適當的示例樣本選擇,使模型輸出更加準確和合乎邏輯的推理步驟,從而提公升了百川3在多項醫學考試中的表現, 並且還可以在真實的醫療問答場景中為使用者提供更準確、更詳細的反饋。
在邏輯推理方面,百川3在數學、**等中文等多項權威評測中均超越了GPT-4,充分證明了其較強的基礎邏輯推理能力。 在擁有豐富優質的專業醫學知識的基礎上,通過優化提示可以充分激發,結合超千億引數的推理能力,百川3號在醫學領域的任務效果明顯提公升,在各項中英文醫學測試中的表現提公升了2-14個百分點。
百川情報表示,百川3號在多項權威醫學測評任務中表現不俗,不僅MCMLE、MEDEXAM、CMexam等中文醫療任務的測評結果超過GPT-4,USMLE和MEDMCQA等英文醫療任務的測評結果也接近GPT-4的水平。
突破“迭代強化學習”技術,提公升創作準確率
語義理解和文字生成作為大模型最基本的底層能力,是其他能力的支柱。 為了提公升這兩項能力,業界進行了大量的探索和實踐,OpenAI、谷歌、Anthropic推出的RLHF(基於人類反饋的強化學習)和RLAIF(基於AI反饋的強化學習)是關鍵技術。
基於強化學習的對齊模型不僅可以更準確地理解使用者指令,尤其是多重約束和多輪對話下的指令,還可以進一步提高生成內容的質量。 然而,充分發揮強化學習在大模型中的作用,不僅需要穩定高效的強化學習訓練框架和高質量部分階資料,還需要“探索與利用”之間的平衡,以實現模型能力的不斷攀公升。
針對上述問題,百川智慧型進行了深入研究,並給出了有針對性的解決方案。 在強化學習訓練框架方面,百川智慧型研發了訓練推理雙引擎融合、多模型並行排程的PPO訓練框架,能夠很好地支援超千億個模型的高效訓練,訓練效率比行業主流框架高400%。
在部分訂單資料方面,百川智慧型採用RLHF和RLAIF的組合,生成高質量、高質量的部分訂單資料,實現了資料質量和資料成本之間的較好平衡。 在此基礎上,針對“探索與利用”的根本挑戰,百川智慧型通過PPO探索空間和獎勵模型評估空間的同步公升級,實現了“迭代強化學習”(iterative rlhf&rlaif)。 基於強化學習的版本爬坡可以進一步發揮基於SFT的基礎模型的潛力,大大提公升百川3的語義理解和生成建立能力。
以文字創作中最具挑戰性的唐宋詩作為中國傳統文化的瑰寶,詩歌不僅在格式、層次、二元性、韻律等方面有嚴格的限制,而且內容簡潔,意義深遠。 如果僅僅通過SFT的微調,一方面,高質量詩歌的創作資料需要極高的專家成本,另一方面,在調平、二元性、韻律等諸多方面,無法實現更好的約束理解和順應。 此外,傳統的單次RLHF正規化在唐宋詩面前也遇到了巨大的挑戰,PPO在訓練過程中產生的反應可能超出獎勵模型的評價範圍,導致“探索”過程失控。
百川智慧型表示,百川3號結合了“RLHF&rlaif”和迭代強化學習方法,使大模型的詩歌創作能力達到了乙個新的高度。 可用性比目前業內最佳模型高出500%,文化是超級GPT-4。 對於格式多樣、結構深厚、節奏豐富的高難度風格,生成的內容也可以整齊搭配和諧。 其精準而深厚的創作技巧,會讓大家輕鬆創作出寫寫的五字詩和七字絕句,不僅能提高大眾的人文素養,也能幫助中國傳統文化真正“活”在大典範時代。
雷迪是由**雷建平創立的,如果**請**在**。