編輯:編輯部。
谷歌發布全球最強開源大模型gemma,7B效能超越LLAMA 2 13B! 谷歌和OpenAI已經達到了新的高度。 這種深夜炸彈的頻率,讓人不得不懷疑,雙方都已經攢下了一堆大炸彈。
半夜雷聲爆,谷歌居然開了LLM?!
這一次,重磅開源 GEMMA 有 2B 和 7B 兩種比例,並且採用與 Gemini 相同的研究和技術構建。
借助 Gemini 的同源技術,GEMMA 可提供相同規模的 SOTA 效能。
更令人印象深刻的是,它能夠在關鍵基準測試中超越LLAMA 2 13B等大型型號。
與此同時,谷歌還發布了乙份長達16頁的技術報告。
技術報告位址:
谷歌表示,gemma 這個名字來源於拉丁語 gemma,意思是寶石,似乎象徵著它的珍貴。
從歷史上看,Transformers、TensorFlow、BERT、T5、Jax、Alphafold 和 AlphaCode 都是 Google 為開源社群貢獻的創新。
Google:今天我將向大家展示什麼是Open AI
而谷歌今天同時在全球推出 GEMMA,將不可避免地掀起構建開源 AI 的又一熱潮。
同時,也印證了OpenAI唯一乙個封閉AI的名稱。
OpenAI最近因為Sora而走紅,據說Llame要大動作了,谷歌也帶頭了。 矽谷的大工廠被顛倒了!
谷歌:我都想要。
Hugging Face的CEO也向他表示祝賀。
還發布了傑瑪出現在Hugging Face熱榜上的截圖。
Keras 作者 Fran Ois Chollet 直言不諱地說:當今最強大的開源模型已經易手。
有網友自己試過了,說GEMMA 7B真的快。
谷歌實際上是在用 Gemini 打 GPT-4,用 Gemma 踢 Llama 2!
網友們也在觀熱,不覺得這有什麼大不了的,召喚Mistral AI和OpenAI趕緊今晚搞點大動作,別讓谷歌真的搶了頭條。 (手動狗頭)。
以相同的規模重新整理 SOTA,跳過關卡並單挑 LLAMA 2 13B
如您所見,GEMMA-7B 模型在涵蓋一般語言理解、推理、數學和編碼的 8 個基準測試中優於 LLAMA 2、7B 和 13B!
而且,它還超越了 Mistral 7b 模型的效能,尤其是在數學、科學和編碼相關任務中。
在安全性方面,GEMMA-2B IT 和 GEMMA-7B IT 模型都經過說明微調,在人類偏好評估中優於 MISTAL-7B v02個模型。
特別是,GEMMA-7B IT 模型在理解和執行特定指令方面表現出色。
一整套工具:跨框架、工具和硬體進行優化
這一次,除了模型本身,谷歌還提供了一套工具,幫助開發者確保負責任地使用GEMMA模型,幫助開發者使用GEMMA構建更安全的AI應用。
Google 為 Jax、PyTorch 和 TensorFlow 提供了完整的工具鏈,支援模型推理和監督微調 (SFT),並且與最新的 Keras 3 完全相容0。
借助預構建的 Colab 和 Kaggle Notebooks,以及與 Hugging Face、MaxText、NVIDIA Nemo 和 TensorRT-LLM 等流行工具的整合,使用者可以輕鬆開始探索 GEMMA。
GEMMA 模型可以部署在個人膝上型電腦和工作站以及 Google Cloud 上,從而在 Vertex AI 和 Google Kubernetes Engine (GKE) 上輕鬆部署。
谷歌還對 GEMMA 進行了跨平台優化,確保了其在 NVIDIA GPU 和 Google Cloud TPU 等多個 AI 硬體上的卓越效能。
而且,使用條款為所有組織提供了負責任的商業使用和分發權利,無論組織的規模如何。
然而,並沒有完全的勝利
然而,GEMMA未能在所有榜單中贏得SOTA。
在官方評測中,GEMMA 7B 在 MMLU、Hellaswag、Siqa、CQA、Arc-E、Humaneval、MBPP、GSM8K、MATH 和 Agieval 中成功擊敗了 LLAMA 2、7B 和 13B 型號。
左右滑動檢視。
相比之下,Gemma 7B 在 Boolq 測試中僅與 Mistral 7B 打成平局。
在 Piqa、Arc-C、WinoGrande 和 BBH 中,它輸給了 Mistral 7B。
左右滑動檢視。
在 OBQA 和三價 QA 中,LLAMA 2 7B 均被 7b 和 13b 鱗片殺死。
技術報告
Google 發布了兩個版本的 GEMMA 模型,乙個是用於在 GPU 和 TPU 上高效部署和開發的 70 億個引數模型,另乙個是用於 CPU 和裝置應用程式的 20 億個引數模型。
在 18 個基於文字的任務中,有 11 個 GEMMA 的表現優於類似引數量表的開源模型,例如問答、常識推理、數學和科學、編碼和其他任務。
在模型架構方面,GEMMA 對 Transformer 進行了多項改進,以便在處理複雜任務時實現更好的效能和效率。
- 多查詢注意力機制
其中,7b模型採用多頭注意力機制,而2b模型採用多查詢注意力機制。 結果表明,這些特定的注意力機制可以提高不同模型尺度下的效能。
- 繩索嵌入
與傳統的絕對位置嵌入不同,該模型在每一層都使用旋轉位置嵌入技術,並在模型的輸入和輸出之間共享嵌入,從而有效地減小了模型的大小。
- Geglu啟用功能
將標準的relu啟用函式替換為geglu啟用函式可以提高模型的效能。
- 歸一化器位置
每個 Transformer 子層的輸入和輸出都經過歸一化。 在這種情況下,RMSNORM作為歸一化層,以保證模型的穩定性和效率。
該架構的核心引數如下:
兩種量表的引數如下:
GEMMA 2b 和 7b 分別對來自 Web 文件、數學和 ** 的原始英語資料進行了 2t 和 6t 標記的訓練。
與 Gemini 不同,這些模型不是多模態的,也沒有在 SOTA 上進行多語言任務訓練。
為了實現相容性,Google 使用 Gemini 的 SentencePiece 分詞器的乙個子集。
該團隊對 GEMMA 2B 和 7B 模型進行了微調,包括監督微調 (SFT) 和基於人類反饋的強化學習 (RLHF)。
在監督微調階段,研究人員使用了乙個由純文字、英語以及人類和機器生成的問答對組成的資料集。
在強化學習階段,使用基於英語偏好資料訓練的獎勵模型和一組精心挑選的高質量提示作為策略。
研究人員發現,這兩個階段對於提高模型在自動化和人類偏好評估中的效能至關重要。
基於LM的平行評估,研究人員選擇了混合資料進行監督微調。
給定一組保留提示,研究人員從測試模型生成響應,對基準模型中相同提示的響應,隨機洗牌,然後要求乙個更大、能力更強的模型在兩個響應之間表達偏好。
研究人員構建了不同的提示集來突出特定的能力,例如遵循指示、從事實中尋求真相、富有創造力和安全。
我們使用了不同的基於LM的自動裁判,採用了一系列技術,如思維鏈提示,使用評分標準和章程等,以符合人類的偏好。
研究人員進一步使用來自人類反饋的強化學習(RLHF)來優化以監督方式微調的模型。
他們從人類評估人員那裡收集了他們的偏好選擇,並基於Bradley-Terry模型,訓練了乙個獎勵函式,類似於Gemini專案所做的。
研究人員使用了 ReinForce 演算法的改進版本,並新增了乙個 kullback leibler 正則化項,以優化獎勵函式,同時保持與最初調整模型的一致性。
與之前的監督微調階段類似,為了調整超引數並進一步防止獎勵機制被濫用,研究人員使用高效能模型作為自動評估工具,並將其直接與基準模型進行比較。
谷歌評估了GEMMA在幾個領域的表現,包括物理和社會推理、問答、程式設計、數學、常識推理、語言建模、閱讀理解等。
在一系列學術基準測試中,將 GEMMA2B 和 7B 模型與多個外部開源大型語言模型進行了比較。
在MMLU基準測試中,GEMMA 7B模型不僅優於所有相同尺寸或更小的開源模型,而且還優於一些較大的模型,包括LLAMA 2 13B。
然而,基準測試的制定者將人類專家的表現評估為 898%,而Gemini Ultra是第一款超過這一標準的機型,這說明Gemma在Gemini和人性化的表現上還有很大的提公升空間。
此外,GEMMA 模型在數學和程式設計基準測試中表現特別好。
在通常用於評估模型分析能力的數學任務中,GEMMA模型在GSM8K和更具挑戰性的MATH基準測試中比其他模型至少高出10分。
同樣,在 Humaneval 上,它們至少領先其他開源模型 6 個百分點。
GEMMA 甚至超過了 Codellama 7B 型號的效能,該型號在 MBPP 上進行了專門微調(Codellama 得分 41)。4%,而 GEMMA 7B 得分為 444%)。
最近的研究發現,即使是對齊良好的 AI 模型也可能受到新的對抗性攻擊,這些攻擊會規避現有的對齊措施。
這種型別的攻擊可能會導致模型出現異常行為,有時甚至會導致模型重複輸出它在訓練期間記住的資料。
因此,研究人員專注於研究模型的可檢測記憶能力,這被認為是評估模型記憶容量的上限,並已被用作多項研究的通用定義。
研究人員對GEMMA預訓練模型進行了記憶測試。
具體來說,他們從每個資料集中隨機選擇了 10,000 個文件,並使用文件開頭的 50 個標記作為模型的提示。
測試的重點是精確記憶,即,如果模型可以根據輸入生成與原始文字完全相同的接下來的 50 個標記,則認為模型已經記住了文字。
此外,為了檢測模型是否能夠以改寫的形式記憶資訊,研究人員還測試了模型的近似記憶能力,這使得生成的文字和原始文字之間的編輯差距高達10%。
在圖 2 中,將 GEMMA 的測試結果與類似尺寸的 Palm 和 Palm 2 型號進行了比較。
可以發現,GEMMA的記憶體速率明顯較低(見圖2左側)。
然而,通過估計整個預訓練資料集的總記憶體,可以獲得更準確的估計(見圖 2 的右側):GEMMA 在記憶體訓練資料方面的表現與 PALM 相當。
個人資訊的記憶尤為重要。 如圖 3 所示,研究人員沒有發現任何被記憶的敏感資訊。
雖然確實發現一些歸類為個人資訊的資料被記住,但這種情況相對較少發生。
而且這些工具往往會產生許多誤報(因為它們只通過匹配模式而不考慮上下文),這意味著研究人員發現的個人資訊量可能被高估了。
總的來說,GEMMA模型在對話、邏輯推理、數學和生成等許多領域都有所改進。
在 MMLU (643%)和MBPP(44%)。4%),GEMMA不僅表現出優異的效能,而且在開源大語言模型的效能上也顯示出進一步提公升的空間。
除了在標準測試任務上取得的先進效能外,Google 還期待與社群合作,推動這一領域的發展。
GEMMA從Gemini模型專案中學到了很多東西,包括編碼、資料處理、架構設計、指令優化、基於人類反饋的強化學習以及評估方法。
同時,谷歌再次強調了使用大型語言模型時的一系列侷限性。
儘管模型在標準測試任務中表現出色,但仍需要進一步研究以建立乙個既穩定又安全且能夠可靠地執行預期任務的模型,包括確保資訊的準確性、調整模型的目標、處理複雜的邏輯推理以及增強模型對惡意輸入的抵抗力。
該團隊表示,正如 Gemini 所指出的,需要更具挑戰性和更強大的基準。
團隊成員
核心貢獻者:
其他貢獻者:
產品經理、專案經理、執行發起人、負責人和技術主管:
鯤鵬專案