昨晚,谷歌毫無徵兆地發布了開源模型 Gemma,專注於輕量級、高效能,並指向 Meta 的 Llama。 GEMMA 的發布標誌著 Google 大規模模型戰略的轉變:從過去押注閉源追趕 OpenAI,到回歸開源舞台,兼顧開源和閉源。
顯然,谷歌的轉變是被迫的。 自從去年下定決心關閉源頭以來,谷歌顯然低估了追趕OpenAI的技術難度,一直被OpenAI打壓,甚至無力反擊。 就連最近發布的大型核彈雙子座1號5、風頭都被空搶走了。
然而,與閉源相比,谷歌在開源戰場上也面臨著很多挑戰。 雖然谷歌擁有明顯的技術優勢,並且在構建開源社群方面擁有豐富的經驗。 然而,在Meta、misstral等玩家逐漸主導開源市場的情況下,不占用時間的谷歌要想迎頭趕上,就必須投入更多的資源。
回顧科技競爭的歷史,每乙個新時代的到來,都意味著前乙個時代技術霸權的衰落。 谷歌會免於這一目的嗎? 從這個角度來看,開源是谷歌在人工智慧戰場上的“史達林格勒戰役”。
01 最強大的開源模型來了!
Gemma在拉丁語中意為“寶石”,是與Google Deepmind和其他團隊合作開發的,使用與Gemini相同的研究和技術。
GEMMA已經發布了20億和70億引數兩個版本,每個量表分為預訓練和指令微調兩個版本。 在Gemini技術的支援下,GEMMA形成了對現有開源大模型的粉碎。 GEMMA 在 18 個基準測試中的平均得分擊敗了當前主流開源模型 Llama 2 和 MISTRAL,尤其是在數學和能力方面。
其中,GEMMA-7B 模型在涵蓋一般語言理解、推理、數學和編碼的 8 項基準測試中表現優於 LLAMA 2、7B 和 13B。 在安全性方面,Gemma-2B IT 和 GEMMA-7B IT 型號都經過說明微調,在人類偏好評估中都超過了 MISTAL-7B v02個模型。
然而,與支援多模態的 Gemini 不同,GEMMA 模型不是多模態的,也沒有針對多語言任務進行訓練。 但根據谷歌發布的乙份技術報告,gemma 的分詞器詞彙量達到了 256k。
你如何理解這一點? 尺度越大,對複雜句子和不熟悉單詞的理解力越強,理解其他語言的速度就越快。 Gemma 的分詞詞彙量達到 256k,這意味著它可以非常快速地學習使用其他語言。
除了模型本身之外,另一點值得注意的是,GEMMA 是從頭開始設計和訓練的,非常注重安全性,這意味著它是本地部署的理想選擇。 例如,Google 使用 Google Cloud 資料丟失防護 (DLP) 工具自動從訓練集中過濾掉私人資訊和敏感資料。 該工具根據私人資料的類別(如姓名、電子郵件等)輸出三個嚴重性級別。 根據谷歌發布的乙份技術報告,最敏感的資訊幾乎完全沒有儲存,潛在的私人資料被部分儲存。
模型發布後,GEMMA還首次推出了HuggingFace和HuggingChat,使用者可以直接在這些平台上試用。 發布才幾個小時,就已經有不少使用者分享了自己的試用體驗,甚至有使用者對它給予了很高的評價,社交平台 X @indigo11 的使用者稱其為“快速”和“穩定輸出”。
02 “搞砸了”的谷歌壓力很大
算上這次發布的gemma,這是谷歌在短短乙個月內發布的第三大動作。
2 月 9 日,谷歌宣布其最強大的模型 Gemini Ultra 免費使用,當 Gemini Ultra 於 2023 年 12 月發布時,它在 MMLU(Massive Multitasking Language Understanding)測試中超越了人類專家,在 32 個多模態基準測試中取得了 30 個 SOTA(當前最佳成績),幾乎在所有方面都超過了 GPT-4。
2月16日,農曆新年第七天,谷歌發布了其大型核彈雙子座1號5,並將上下文視窗長度擴充套件到 100 萬個令牌。 gemini 1.5 Pro 一次可以處理 1 小時的音訊,擁有超過 30,000 行**或超過 700,000 個單詞**的庫,挑戰尚未發布的 GPT-5。
儘管谷歌頻頻出動,但風頭還是被OpenAI的文生**大模型Sora搶走了。 而谷歌這次之所以突然毫無徵兆地發布開源模型,正是因為它不想重蹈覆轍。 畢竟,有訊息稱 Meta 將在本週內發布公升級版的 LLAMA。
從表面上看,谷歌搶先發布開源模式,是為了挽救近期的“下滑”。 但更深層次的原因是,谷歌想要改變被OpenAI壓制已久的局面,探索更多“彎道超車”的可能性。
乙個極其殘酷的事實是,自2022年12月ChatGPT發布以來,曾經在AI領域處於領先地位的谷歌,就被OpenAI壓制得死死的,沒有辦法反擊。
去年2月,OpenAI的ChatGPT風靡全球,谷歌匆忙推出聊天機械人Bard,但產品卻不如預期。 首先,演示是乙個事實錯誤,一夜之間使谷歌母公司的市值蒸發了1000億美元; 在那之後,它未能以其效能吸引足夠的使用者,根據 SimilarWeb 的說法,Bard 只有 2 個2億次,僅為ChatGPT的1 8。
去年 12 月 7 日,谷歌發布了其最強大的模型 Gemini,儘管其結果驚人,但還是讓市場感到驚訝。 2024年1月31日,谷歌最新財報顯示,營收表現突出,但由於AI的進展不如預期,市值一夜之間蒸發了1000多億美元。
隨著 SORA 的發布,越來越多的人意識到乙個問題:在擴容法則的推動下,OpenAI 相對於閉源模型的優勢越來越大。 換句話說,此次進軍開源的公告更像是谷歌在人工智慧競賽中的被迫行動。
一方面,相較於Meta去年年中進入開源模式,谷歌進入開源模式晚了半年,這意味著它需要花費數倍的精力來區分模式並投入推廣,才有可能在眾多開源模型中脫穎而出。 另一方面,至少從披露的內容來看,與其他開源模式相比,谷歌推出的開源模式並沒有超出預期太多。
但即便如此,對谷歌來說,進軍開源模式仍然很有意義。 畢竟,隨著OpenAI的退居二線,谷歌迫切需要一場勝利來扭轉局面。 開源模型可能成為谷歌在人工智慧戰場上爭奪史達林格勒的戰鬥。
03 谷歌回歸開源
從歷史上看,開源對谷歌來說並不陌生,甚至在相當長的一段時間裡,谷歌一直是開源技術的堅定支持者。 從歷史上看,Transformers、TensorFlow、BERT、T5、Jax、Alphafold 和 AlphaCode 都是 Google 為開源社群貢獻的創新。
2015 年 11 月,Google 推出了 TensorFlow,它成為最受歡迎的開源深度學習框架之一。 任何擁有計算機和網際網絡連線(以及一點點深度學習演算法)的人都可以使用有史以來最強大的機器學習平台。 自 2015 年以來,數以千計的開源貢獻者、開發人員、社群組織者和研究人員已經投資了這個開源軟體庫。
2018 年,谷歌宣布將開源 BERT,這是一種基於神經網路的自然語言預訓練處理技術,其用途不僅限於搜尋演算法,任何人都可以在其他型別的問答系統中使用 BERT。 更不用說,在移動網際網絡時代,谷歌還建立了乙個可與蘋果相媲美的Android開放生態系統。
與OpenAI不同,簡單而殘酷的擴充套件法並不是谷歌的唯一途徑。 開源的GEMMA不僅意味著它希望重塑其在AI社群的影響力,也代表了谷歌大模型戰略的轉變:開源和閉源。
在當下的AI行業,谷歌開發開源模型確實是乙個不錯的選擇。
一方面,與閉源模式相比,開源模式的競爭相對較小,競爭主要來自Meta的Llama。 閉源模型的技術實力和谷歌等開源社群的經驗使其更有可能形成一種崩潰的局面。
另一方面,在AI落地的故事中,開源模式還是有很大的潛力的。 原因是開源模型的成本優勢會更有利於模型的實現。 在很多場景下,使用GPT就像開著蘭博基尼送餐一樣,成本太高了。 一位 AI 研究人員進行了計算,GPT-35 的 API 幾乎是開源模型 Llama2 推理成本的 3-4 倍,更不用說 GPT-4 了。
在移動網際網絡時代,瀕臨衰落的Microsoft依靠雲計算,實現了最後的扭虧為盈。現在,不如AI故事的谷歌能否複製這條道路,還有待觀察。