開源12天,斬獲抱臉OpenCompass等權威榜單冠軍,通義千文瘋狂甩駱駝2成新標桿

Mondo 科技 更新 2024-01-29

聰明的東西

作者 |香草

編輯 |沙漠之影

國產模式又出圈了嗎?

智東在12月12日表示,近日,阿里雲同益千問的720億引數模型QWEN-72B擊敗了LLAMA 2等國內外開源大模型登上全球最大模特社群的頂端hugging face開源大模型排行榜(開啟 LLM 排行榜)。

Hugging Face 開源大模型排行榜,資料截至 12 月 12 日。

在六維考核中,通義千文獲得了平均結果。 其中,在考察數學推理能力的GSM8K基準測試,以及考察事實提問能力的TruthfulQA上,通義千泉提問分別超越駱駝3 個分數和 3

而就在今天,在上海人工智慧實驗室最新推出的中國大模型榜單和國內權威開源大模型評測OpenCompass上,通益千問72B也獲得了第一名。

Opencompass中國大模型榜單,資料截至12月12日。

經過12天的開源,通益千問72b斬獲多項權威評測榜冠軍,硬實力得到了專業人士的認可。

在開源社群中,通益千問72B引發了全球開發者狂歡的浪潮,國外有學者認為,這種開源模型在處理某些任務方面的表現可以與GPT-4相媲美。 截至目前,通益千問擁有全系列的開源模型累計**金額突破150萬,生下它超過 150 種新型號和應用

來自中國的超級開源模式是如何製作的? 志東與同益實驗室的科學家交談,尋求答案。

12 月 1 日,阿里雲宣布正式開源了擁有 720 億引數的大型語言模型——通益千問 QWEN-72b。

該模型一經發布,立即在社交平台X上引起了海內外大量開發者的關注。

人工智慧研究機構FAST資料科學家AI聯合創始人傑里公尺·霍華德(Jeremy Howard)** Tongyi Qianwen在一篇文章中說:“由於這些令人興奮的新模型的發布,上面的帖子在發布10分鐘後就過時了。 在此之前,他剛剛在推特上發布了另乙個中國開源模型Deepseek的基準測試結果。

General Robotics 1X 人工智慧副總裁、谷歌前高階研究科學家 Eric Jang 說:“幹得好! 這篇技術文章非常值得一讀,我很高興他們也開源了對齊的 VLM。 ”

Microsoft 的 365 管理平台 Coreview 的首席技術官 Ivan Fior**Anti 用幾個感嘆號表達了他的興奮:“可以測試另乙個新的大模型! 幾個月後,這些模型將變得非常強大! ”

一位專注於人工智慧的波蘭學者說:“乍一看,它確實令人印象深刻。 仔細觀察,(Tongyi Qianwen)在處理波蘭語方面與 GPT-4 不相上下(而 LLAMA2 在這方面做得很糟糕)。 ”

印度NLP科學家、資料科學社群Maxpool創始人Pratik BH**SAR認為,該模型在很多任務上都已經超越了GPT-4,迫不及待地想用通義千文實現商業化應用。

在中國,中小企業和創業公司也非常喜歡開源的通益千問。 具身智慧型機械人創業公司優路智慧型創始人兼CEO陳俊波曾稱通義千文是“目前中文領域智慧型效能最好的開源大模型之一”。

陳俊波,優路智慧型創始人兼CEO(來源:阿里雲)。

華東理工大學X-D Lab學生開發者閆昕基於通義千文開源模型開發了心理健康模型,如MindChat(漫無邊際)、醫療健康模型Sunsimiao(孫思淼)、教育考試模型GradChat(錦鯉)。 通益千問72b開源後,閆欣很好奇它是如何重新整理“我們領域的能力極限值”的。

我們可能會基於QWEN-72B進行一些學術探索,包括使用聯邦習演算法來處理資料。 ”

閆昕,華東理工大學X-D實驗室學生開發人員(來源:阿里雲)。

同益千文QWEN-72B開源發布時,在10個權威評估集中取得了開源模型的最佳成績,有4個基準測試超越了閉源模型GPT-4。

值得一提的是,在數學能力評估基準上,QWEN-72B取得了35分的成績2分,幾乎是同規模LLAMA 2的三倍。

QWEN-72B在前10大權威測試中的得分。

在今天剛剛更新的OpenCompass評測系統中,QWEN-72B獲得了開源基礎模型的第一名。

OpenCompass大模型排名,資料截至12月12日。

在OpenCompass中文能力測試中,同益千問72B基礎模型和對話模型包攬了前兩名,與GPT-4等主流模型拉開了差距。

Opencompass中國大模型榜單,資料截至12月12日。

日前,通益千問72B在最權威的Hugging Face開源大模型排行榜上名列前茅。 該榜單收錄了來自世界各地的數百個開源模型,測試維度涵蓋閱讀理解、邏輯推理、數學計算、事實問答等六大評價。

QWEN-72B 和 LLAMAMA-2-70B 進行六項主要測試。

其中,同益千文在MMLU、TruthfulQA、GSM8K三大基準中的表現已經大大超過了LLAMA 2。

在具體能力方面,MMLU考察了模型的世界知識和語言能力,這是乙個綜合評估。 TruthfulQA考察模型的常識問答,包括常識能力、抗幻覺能力、問答能力等。 GSM8K 檢查模型的數學推理和計算。

在實際應用中,通義千文在各方面的能力表現如何?

讓我們從乙個經典的數學問題開始:0999無限迴圈和1迴圈哪個更大?

解決問題的邏輯是明確的,結果是正確的。

在理解漢語方面,通義千文也能準確識別複雜的重疊詞:

我們來看乙個邏輯推理問題:天堂和地獄有兩扇門,兩個門衛,乙個說真話,乙個說謊,你只能問乙個人一次,如何找到天堂之門?

佟義千文沒有被難倒,通過邏輯分析,準確地找到了問題的答案。

在常識上,通義千文也不是問題,準確回答了冰水是純淨的還是混水的。

面對“陷阱”這個假設性的問題,統義千文也在努力給出乙個合理的答案。

整體來看,同益千問72B的效能非常耐久,超越LLAMA 2成為開源大模型的新標桿。

那麼問題來了——為什麼 QWEN-72B 具有如此出色的效能?

阿里巴巴同益實驗室的科學家告訴智東,同益千文模型的不斷優化和進步,主要依靠三個基本能力。

首先,培訓更紮實,方法更先進。

在QWEN-72B模型的訓練中,阿里雲使用了多達43噸的高質量資料進行訓練,相當於7噸代幣,覆蓋近20種語言,涵蓋金融、法律、醫療等領域。 同時,通益千文團隊優化了資料匹配和資料來源,使用更高質量、更多樣化的3T代幣進行訓練。

在訓練方法上,通益千文團隊綜合運用DP(資料並行)、TP(張量模型並行)、PP(流水線並行)、SP(序列並行)等方法進行大規模分布式並行訓練,並引入Flashattention-2等高效運算元,提高訓練速度。

二是AI基礎設施全面公升級大模型訓練又快又好

在今年的Apsara大會上,阿里雲首席技術官周 Jingren表示,阿里雲已經全面公升級了其AI基礎設施。 這大大提高了大模型的訓練和推理效率,同益千問72b開源模型的推出就是最新的例子。

借助阿里雲AI平台PAI的拓撲感知排程機制,統義千文團隊有效降低了大規模訓練過程中的通訊成本,訓練速度提公升了30%。

此外,在訓練穩定性方面,PAI平台的AIMaster管理元件監控作業日誌、錯誤報告、指標等資訊,使團隊能夠區分使用者錯誤和系統錯誤,根據作業型別和容錯場景提供管理能力和全鏈路自動化運維能力,自動拒絕故障機器重啟任務, 將訓練期間手動干預和重啟的頻率從每天減少到每週一次。

據悉,中國一半的大型模型公司都在阿里雲上執行,百川智慧型、智步AI、零壹萬物、崑崙萬維、vivo、復旦大學等一大批龍頭企業和機構都在阿里雲上訓練了大型模型。

最後,來自應用場景和開源社群的豐富反饋也幫助研發團隊不斷迭代和優化基礎模型。

目前,全球大模型領域主要有兩條技術路線。 乙個是以 OpenAI 的 GPT-4 為代表的閉源路由,另乙個是以阿里雲的通益千問和 Meta 的 LLAMA 2 為代表的開源路由。

閉源模型的定製不如開源模型,無法滿足當前模型應用市場的多樣化需求。

阿里雲是國內首家開源自研大模型的科技公司,先後開源了QWEN-7B、QWEN-14B、QWEN-72B、QWEN-18b還開源了兩個多模態大模型,視覺理解模型QWEN-VL和音訊理解大模型QWEN-audio,率先實現了大模型“全尺寸、全模態”開源。

阿里雲還為開發者提供了更加便捷、普惠的大型模型服務:開發者可以在Moda社群中直接體驗一系列模型的效果,也可以通過阿里雲靈濟平台呼叫模型API,或者基於阿里雲百聯平台定製大型模型應用; 阿里雲AI平台PAI也深度適配通益千問全系列模型,推出輕量級微調、全引數微調、分布式訓練、離線推理驗證、一流服務部署等服務。

智東從一些開發者群體中了解到,從使用者的角度來看,之所以選擇國產開源模式,是因為開源模式價效比高,定製化程度高,能夠適應現階段千行百業對大模型應用的多元化探索。

其次,借助開源社群的有效反饋和集體智慧,可以更快地對開源模型進行迭代優化和擴充套件,甚至有些問題相似,更容易找到現成的解決方案。

最後,國內使用者需要對中國強大的車型有更多的可控性和更多的了解,通益千問72b在中國能力上遠遠超過駱駝2,這是中國自主研發的大模型與國外模型相比不可替代的優勢。

在12月1日的通益千文發布會上,周靜仁表示,開源生態對於推動中國大模型的技術進步和應用至關重要,通益千文將繼續投入開源,希望成為“AI時代最開放的大模型”。

在阿里雲想象的“大模自由市場”中,通益千文只是“百模”之一。 QWEN大模型系列的開源,是阿里雲將知識與行動相結合,開展大模型生態建設的最佳實踐。 大模型越早推向市場,就越會吸收使用者的反饋來餵養大模型,“模型越強、應用越多、應用越多、模型越強”的“飛輪效應”。

超越LLAMA 2是國產大模型“百模大戰”中的乙個節點,通過更廣泛的落地應用和更繁榮的生態,進一步攻克最強閉源大模型GPT-4,或許在AI大戰中,以阿里雲為代表的中國企業有更大的勝算。

相關問題答案

    青安大環線12日遊

    青安大環線日遊 在藍天白雲下的青藏高原上,有一條被稱為 中國最美環線 的旅遊路線,那就是青安大環線。這條路線將帶您進入壯麗的自然景觀和悠久的歷史文化,讓您感受到大自然的神奇和人們的深厚底蘊。如果您正在尋找一次難忘的戶外探險,Ngan Grand Loop 絕對是您的首選。第一天,我們從成都出發,驅車...

    過去20天12月的勸勉和鼓勵

    年研究生入學考試 準高手們,我是習實驗室的班長。我先問你乙個問題 春 夏 秋 冬,一天中哪個時間最冷?是清晨嗎?nonono 天還沒亮!黎明前的溫度是一天中最低的時間。如果你現在放棄了,你將如何迎接即將到來的冉冉公升起的太陽?眼看考試日期臨近。今天,班長就要繼續梳理月份的任務和備考建議。眨眼間真的是...

    距離研究生入學考試還有12天,我應該複習題還是放鬆?

    隨著考研日期的臨近,考生逐漸面臨乙個重要的問題 在最後天裡,我應該複習題還是放鬆?對於這個問題,我們需要理性分析。首先,刷題是鞏固知識點 提高應試技巧的有效途徑。通過大量的習練習,我們可以更好地掌握解決問題的能力,熟悉考試形式,從而增強我們的信心,提高我們的應試能力。但是,如果盲目複習題目,忽視休息...

    努力工作100天,充滿活力!12月初,集團共有39個優質專案通過評審

    月日,月初集團專案評審會順利召開,共有個優質專案順利通過評審集團董事長兼CEO陳谷音 總裁朱衛東 獨景投資董事長兼CEO包先華出席會議並指導工作。京津冀及粵港澳大灣區專案團隊通過 連線方式參會。上海長三角團隊。外資公司 上市國有企業 .A股上市不鏽鋼製品擴建專案 .外資合成材料生產擴建專案 .上市公...

    嘲笑大牙!4天票房只有167元,12月,這部國產大片被吳京擊敗

    說實話,這幾年我看到了很多票房 比如年上映的 誤入青春 這部電影的噱頭就是 西遊團團重聚,四老一劇 雖然大家對李世巨集 馬德華 徐少華 劉大剛都很熟悉,但畢竟他們不如劉曉彤彤出名。此外,這部電影講述的故事乏善可陳,甚至不如網路電影精彩,所以最終只拿到了元的票房。在票房往往超過億甚至數十億的時候,四位...