又乙個全面對標GPT 4的國產大模型來了，醫療資料超千億

1月29日，百川智慧型發布了超千億引數的大型語言模型百川3。百川3在基礎能力上得到了全面提公升，在多項權威評測中，英語能力接近GPT-4，中文能力超過GPT-4。

百川3在特定領域也表現出色，比如在醫療領域，百川智慧型在模型預訓練階段就構建了超過1000億個代幣的醫學資料集，包括醫學研究文獻、真實電子病歷資料、醫學領域的專業書籍和知識庫資源，以及針對醫療問題的問答材料。在對MCMLE、MEDEXAM、CMEXAM等需要較高邏輯推理能力和專業性的權威醫學評價的中國效果方面，百川3也超過了GPT-4，是中國醫療任務的最佳大模型。

《百川3》還突破了“迭代強化學習”技術，進一步提公升了語義理解和生成能力，在詩歌創作的格式、韻律、表意文字等方面表現良好。

基本能力全面提公升

多項對中國任務的權威評價已超越GPT-4

百川 3 在幾篇英文評測中表現良好，達到了接近 GPT-4 的水平。在CMMLU、Gaokao、Humaneval、MBPP等多個中國評測榜單中，已超越GPT-4，在中文任務中展現出優勢。

此外，在MT-bench、IFEVAL等對齊榜單的評測中，百川3超越了GPT-35、克勞德等大型機型處於行業領先水平。

不同於百億、百億引數模型的訓練，對資料質量、訓練穩定性、千億以上引數模型的訓練效率的要求在訓練過程中要高出幾個數量級。為了更好的解決相關問題，百川智慧型在訓練過程中提出了“動態資料選擇”、“重要性維護”、“非同步檢查點儲存”等多種創新技術手段和解決方案，有效提公升了百創3的能力。

在高質量資料方面，傳統的資料篩選依賴於人工定義，通過過濾、質量評分、教科書過濾等方式對資料進行過濾。百川智慧型認為，資料優化和取樣是乙個動態的過程，應該用模型本身的訓練過程來優化，而不是僅僅依靠人工進行先驗資料取樣和篩選。

為了全面提公升資料質量，百川智慧型設計了一套基於因果抽樣的動態訓練資料選擇方案，可以在模型訓練過程中動態選擇訓練資料，大大提高資料質量。

在訓練穩定性方面，由於模型中引數數量龐大，引數超過1000億個，在訓練過程中經常會出現梯度**、損失、收斂不收斂等問題。

對此，百川智慧型提出了一種“重要性維護”（顯著一致性）的漸進式初始化方法，以保證模型訓練初始階段的穩定性。此外，對模型訓練過程的監控方案進行優化，在梯度、損失等指標中引入引數“有效排名”的方法，提前發現訓練過程中的問題，大大加快了訓練問題的定位，保證了最終模型的收斂效果。

此外，為了保證超千億個GPU引數的模型高效穩定訓練，百川智慧型同步優化了模型的訓練穩定性和訓練框架，採用了“非同步檢查點儲存”機制，可以在不損失效能的情況下提高儲存頻率，減少機器故障對訓練任務的影響，並使百川3號的穩定訓練時間達到乙個月以上，故障恢復時間不超過10分鐘。

在訓練效率方面，百川智慧型對超千億引數的模型並行訓練進行了一系列優化，如高度優化的ROPE和SWIGLU計算運算元; 引數通訊與計算的重疊在資料並行中實現，啟用值通訊與計算的重疊以序列並行實現，從而有效降低通訊時間的比例。在流並行中引入將啟用值解除安裝到GPU的技術，解決了流並行中記憶體使用不均勻的問題，減少了流並行中的段數，並顯著降低了空化率。

通過這些技術創新，百川3訓練框架的效能比行業主流框架提公升了30%以上。

醫學資料集中的代幣數量超過1000億

醫療能力正在接近 GPT-4

從疾病診斷、疾病到患者護理和藥物研發，大模型不僅可以幫助醫生提高診療效率和質量，幫助患者獲得更好的服務和體驗，還可以幫助社會降低醫療成本和風險，幫助醫療資源實現普惠和平等權利。此外，醫療問題專業性強，知識更新速度快，精度要求高，個體差異大，能充分體現大模型的各項能力，被百川智慧型稱為“大模型皇冠上的明珠”。

因此，OpenAI、谷歌等龍頭大型模型公司將醫療護理作為模型的重點訓練方向和績效考核的重要體系。

ChatGPT早在2023年2月就通過了美國醫師執照考試（USMLE），展現了其在醫療領域的強大實力。谷歌更加重視醫療領域，基於PALM模型構建了大型醫療模型MED-PALM，迭代後的MED-PALM 2在體檢MEDQA中得分超過80分，達到專家級。

在醫療領域，大型模型的全方位性起著至關重要的作用。

首先，其多模態學習能力可以整合文字、影象、聲音等多種型別的醫療資料，提供更全面、更準確的分析診斷。

其次，大型模型的深度推理能力可以幫助做出複雜的醫療決策。此外，穩定的效能和最新的知識能力確保了醫療建議的可靠性和及時性。同時，大型模型的語言理解和生成能力使它們能夠處理技術術語和複雜的句型。

最後，將模式識別和學習能力應用於大型模型，使他們能夠從複雜的醫療資料中學習和識別重要的模式和特徵。

因此，大型模型要想在醫學領域取得好成績並不容易，這不僅需要豐富的醫學知識、適當的提示，還需要模型本身優秀的邏輯推理能力。

為了給百川3注入豐富的醫學知識，百川智慧型在模型預訓練階段就構建了超千億個代幣的醫學資料集，包括醫學研究文獻、真實電子病歷資料、醫學領域的專業書籍和知識庫資源、醫療問題問答材料。資料集涵蓋了從理論到實際操作，從基礎理論到臨床應用的醫學知識的方方面面，保證了模型在醫學領域的專業性和知識深度。

針對醫學知識刺激的問題，百川智慧型在推理階段對提示進行了系統的研究和優化，通過對任務的準確描述和適當的樣本選擇，使模型輸出更加準確和合乎邏輯的推理步驟，最終不僅提公升了百川3在多項體檢中的表現，同時也為使用者在真實的醫療問答場景中提供更準確、更詳細的反饋。

在邏輯推理方面，百川3在數學、**等中文等多項權威評測中均超越了GPT-4，充分證明了其較強的基礎邏輯推理能力。

在擁有豐富優質的專業醫學知識的基礎上，通過優化提示可以充分激發，結合超千億引數的推理能力，百川3號在醫學領域的任務效果明顯提公升，在各項中英文醫學測試中的表現提公升了2-14個百分點。

百川3在多項權威醫學測評任務中表現不俗，不僅MCMLE、MEDEXAM、CMexam等中文醫療任務的測評結果超過GPT-4，USMLE和MEDMCQA等英文醫療任務的測評結果也接近GPT-4的水平，GPT-4是中國醫療能力最強的大模型。

“迭代強化學習”技術的突破

創作的準確性大大提高

語義理解和文字生成作為大模型最基本的底層能力，是其他能力的支柱。為了提公升這兩項能力，業界進行了大量的探索和實踐，OpenAI、谷歌、Anthropic推出的RLHF（基於人類反饋的強化學習）和RLAIF（基於AI反饋的強化學習）是關鍵技術。

基於強化學習的對齊模型不僅可以更準確地理解使用者指令，尤其是多重約束和多輪對話下的指令，還可以進一步提高生成內容的質量。然而，充分發揮強化學習在大模型中的作用，不僅需要穩定高效的強化學習訓練框架和高質量部分階資料，還需要“探索與利用”之間的平衡，以實現模型能力的不斷攀公升。

針對上述問題，百川智慧型進行了深入研究，並給出了有針對性的解決方案。

在強化學習訓練框架方面，百川智慧型研發了訓練推理雙引擎融合、多模型並行排程的PPO訓練框架，能夠很好地支援超千億個模型的高效訓練，訓練效率比行業主流框架高400%。

在部分訂單資料方面，百川智慧型創新性地採用RLHF和RLAIF的組合，生成高質量、高質量的部分訂單資料，實現了資料質量和資料成本之間的較好平衡。

在此基礎上，針對“探索與利用”的根本挑戰，百川智慧型通過PPO探索空間和獎勵模型評估空間的同步公升級，實現了“迭代強化學習”（iterative rlhf&rlaif）。基於強化學習的版本爬坡可以進一步發揮基於SFT的基礎模型的潛力，大大提公升百川3的語義理解和生成建立能力。

以文字創作中最具挑戰性的唐宋詩作為中國傳統文化的瑰寶，詩歌不僅在格式、層次、二元性、韻律等方面有嚴格的限制，而且內容簡潔，意義深遠。如果僅僅通過SFT的微調，一方面，高質量詩歌的創作資料需要極高的專家成本，另一方面，在調平、二元性、韻律等諸多方面，無法實現更好的約束理解和順應。

此外，傳統的單次RLHF正規化在唐宋詩面前也遇到了巨大的挑戰，PPO在訓練過程中產生的反應可能超出獎勵模型的評價範圍，導致“探索”過程失控。

百川3號結合了“RLHF&rlaif”和迭代強化學習方法，將大型模型的詩歌創作能力提公升到乙個新的水平。可用性比目前業內最好的模型高出 500%，遠遠超過 GPT-4。

對於格式多變、結構深厚、韻律豐富的高難度風格，生成的內容也可以整齊搭配和諧，既能提公升大眾的人文素養，又能幫助中國傳統文化真正“活”在大模式時代。

作為超千億引數規模的大型語言模型，百川3不僅在英語上達到了接近GPT-4的水平，而且在多項通用中文任務的表現上也超過了GPT-4，這是百川智慧型的新里程碑。

百川3號在醫療領域的綜合通用能力和強勢表現，將為百川智慧型打造“超級應用”，為大模型技術在眾多複雜應用場景下的落地提供有力支撐。

又乙個全面對標GPT 4的國產大模型來了，醫療資料超千億

相關問題答案

又是國內熱門？後排座椅可向下摺疊放床，百公里油耗4.2公升

又是國內熱門？後排座椅可向下摺疊放床，百公里油耗4.2公升

又乙個年輕而新鮮的生命消失了，傷心！

又乙個被“投票民主”摧毀的國家出現了

另一家醫院的院長因受賄被民眾審判