視覺中國。
1月29日,中國人工智慧初創公司百川智慧型發布了百川3,這是乙個擁有超過1000億個引數的大型語言模型。 在CMMLU、Gaokao、Agi-Eval等多項權威通用能力評估中,百川3號展現了卓越的能力。 在CMMLU、Gaokao、Humaneval、MBPP等多個中國評測榜單中,已超越GPT-4,在中文任務中展現出優勢。
不同於百億、百億引數模型的訓練,對資料質量、訓練穩定性、千億以上引數模型的訓練效率的要求在訓練過程中要高出幾個數量級。 為了更好的解決相關問題,百川智慧型在訓練過程中提出了“動態資料選擇”、“重要性維護”、“非同步檢查點儲存”等多種創新技術手段和解決方案,有效提公升了百創3的能力。
在高質量資料方面,傳統的資料篩選依賴於人工定義,通過過濾、質量評分、教科書過濾等方式對資料進行過濾。 百川智慧型認為,資料優化和取樣是乙個動態的過程,應該用模型本身的訓練過程來優化,而不是僅僅依靠人工進行先驗資料取樣和篩選。 為了全面提公升資料質量,百川智慧型設計了一套基於因果抽樣的動態訓練資料選擇方案,可以在模型訓練過程中動態選擇訓練資料,大大提高資料質量。
百川智慧型的醫學知識水平也取得了突破性進展。 百川3醫療資料集中的代幣數量超過1000億,醫療容量接近GPT-4。 為了給百川3注入豐富的醫學知識,百川智慧型在模型預訓練階段就構建了超千億個代幣的醫學資料集,包括醫學研究文獻、真實電子病歷資料、醫學領域的專業書籍和知識庫資源、醫療問題問答材料。 該資料集涵蓋了從理論到實際操作,從基礎理論到臨床應用的醫學知識的方方面面。
目前,百川智慧型沒有透露模型引數的數量,只是宣布百川3是乙個引數超過1000億的大型模型。 相比之下,GPT-35 是 1750 億引數。
百川智慧型由王小川、茹麗雲共同創立,於2023年4月以搜狗團隊為基礎成立。 據報道,自成立以來,該公司已獲得5000萬美元的啟動資金。
百川智慧型的速度一直非常快。 成立不到100天,百川智慧型就發布了百川-7B和百川-13B兩款開源、免費商用的中國大機型。 從百川1號出發0 到現在 30,只用了9個月。
就在乙個月前,2023年12月19日,百川智慧型宣布開放基於搜尋增強的百川2-Turbo系列API,包括百川2-Turbo-192K和百川2-Turbo,並在支援192K上下文視窗的基礎上,還增加了搜尋增強知識庫的能力。
與baichuan2-192k相比,baichuan3在允許輸入文字的長度上有所減少。 百川2-192k上線時,允許使用者輸入多達35萬字的文字,聲稱可以一次閱讀《三體2》的副本,成為全球處理上下文視窗最長的最大模型。 目前,baichuan3 允許您輸入最多 4096 個字元的文字,相當於 2000 個漢字或 3000 個英文單詞。
在過去一年的大規模模型創業中,通過行業資料訓練行業垂直大型模型,被認為是大型模型落地B端的主要路徑。 據佳子光年介紹,百川智慧型將向量資料庫公升級為搜尋增強知識庫,提公升了大模型獲取外部知識的能力; 搜尋增強的知識庫和超長上下文視窗的組合使模型能夠連線到所有企業知識庫和網路範圍的資訊。
在去年年底的**溝通會上,王小川透露,百川智慧型C端產品的第一重點就是醫療方向,產品預計2024年上市。