超越 GPT 4！谷歌發布最強大的多模態大型模型 Gemini

12月7日凌晨，谷歌在其官網上發布了一款全新且功能最強大的多模態大模型——雙子座。

據悉，Gemini 有 Ultra、Pro、Nano 三個版本，可以自動生成文字、總結內容等，並理解**、音訊和**內容。在 MMLU、Drop、Hellaswag、GSM8K 等主流評測中，Gemini Ultra 的能力全面超越 OpenAI 的 GPT-4 和 GPT-4 V。

值得一提的是，Gemini Ultra在MMLU中拿下了90%的分數，這也是MMLU上首款超越人類專家的大型車型。

目前，谷歌已經宣布了 Gemini**，它將從 12 月 13 日起為 Gemini Pro 提供 API。 Ultra版本仍在安全和功能優化過程中，即將上市。

使用者可以在谷歌的類ChatGPT產品Bard中體驗Gemini Pro版模型，該產品支援中文。

巴德位址：

* 位址： Gemini Pro API 位址：

雙子座簡介。

Gemini 有三個版本，Ultra 是最強大的版本，可以用於超複雜的推理和理解，但 AI 算力消耗也非常大

Pro 的引數只有 Ultra 的一半，但對於大規模應用部署來說，效能非常好Nano 是一種輕量級模型，適用於移動裝置和個人小規模部署。

雙子座介紹道。

在技術架構上，Gemini 模型的基礎設施建立在 Transformer 編碼器結構之上，採用多層自注意力和前饋神經網路對序列依賴關係進行建模。不同的是，Gemini 採用了多查詢注意力機制，這也是處理複雜長文字的關鍵。

傳統的 transformer 結構採用單查詢注意力機制，即查詢鍵值對的拼接對於每個位置都是唯一的。但對於非常長的序列，這在計算上會很昂貴。

Gemini 使用多查詢注意力機制，其基本思想是使用一組查詢向量，而不是序列中每個位置的唯一查詢向量。

具體來說，該模型首先將輸入序列的每個位置編碼為一組查詢向量。然後，將這些查詢向量與鍵值對並行處理，得到多個注意力結果。

此外，Gemini 模型還使用類似詞片的 SentencePiece 演算法在詞級對輸入序列進行分割，可以支援多種語言，節省計算資源。

在訓練資料方面，Gemini 使用來自線上文字、書籍和**的大量資料進行預訓練。在對資料進行取樣之前，開發者進行了嚴格的資料篩選，以去除暴力、虛假、歧視等有害內容。

雙子座的各種能力。

理解文字、音訊。

Gemini 模型在海量資料上進行訓練，以識別和理解文字、影象、音訊和其他內容，並回答與複雜主題相關的問題。因此，非常擅長解釋數學和物理等複雜學科的推理任務。

生成**。 Gemini 可以生成和理解 Python、J**A、C++ 和 Go 等主流語言。 Gemini Ultra 在多個編碼基準測試中表現出色，包括 Humaneval，這是評估編碼任務效能的重要行業標準。

谷歌還基於Gemini模型開發了專業的**模型AlphaCode 2。與上一代產品相比，AlphaCode 2 的效能至少提高了 50%。

複雜的推理。 Gemini 的多模態功能使其在視覺理解、文字生成等方面非常強大。例如，從數十萬字中整理要點;

從 200 頁的財務報告中找出最有價值的內容。這對金融、科技、醫療等領域的科研和業務人員有很大幫助。

對吟遊詩人的支援

目前，谷歌的 Bard 已經整合了 Gemini Pro 模型，AIGC 開放社群也體驗過，其理解和文字生成能力比以前強了很多，尤其是生成和評論能力非常出色。

雙子座全面超越GPT-4

谷歌在 MMLU、Drop、Hellaswag、GSM8K 等主流評測中對 Gemini 和 OpenAI 的 GPT-4 和 GPT-4 V 進行了深入評估。

測試資料顯示，Gemini Ultra 在大型語言模型研發中廣泛使用的 32 個學術基準中，有 30 個優於 30 個，是第乙個在 MMLU 上表現優於人類專家的大型模型。

此外，Gemini Nano 模型在移動裝置上展示了出色的自然語言處理能力。特別是，在對目標任務進行微調後，它在閱讀理解和摘要生成等任務中優於其他同規模的模型。

谷歌首席執行官桑達爾·皮查伊（Sundar Pichai）表示，Gemini是我們迄今為止功能最強大、用途最廣泛的型號，在許多領先的基準測試中表現異常出色。

Gemini 的第乙個版本針對不同的尺寸進行了優化，適用於不同的人群和行業。 Ultra、Pro 和 Nano 是 Gemini 的首批型號，也是我們創立 Google Deepmind 願景的首次實現。我們很高興在未來繼續發布更強大的模型。

本文素材**Google官網，雙子座**，如有侵權，請聯絡刪除。

end