12月7日凌晨,谷歌在其官網上發布了一款全新且功能最強大的多模態大模型——雙子座。
據悉,Gemini 有 Ultra、Pro、Nano 三個版本,可以自動生成文字、總結內容等,並理解**、音訊和**內容。 在 MMLU、Drop、Hellaswag、GSM8K 等主流評測中,Gemini Ultra 的能力全面超越 OpenAI 的 GPT-4 和 GPT-4 V。
值得一提的是,Gemini Ultra在MMLU中拿下了90%的分數,這也是MMLU上首款超越人類專家的大型車型。
目前,谷歌已經宣布了 Gemini**,它將從 12 月 13 日起為 Gemini Pro 提供 API。 Ultra版本仍在安全和功能優化過程中,即將上市。
使用者可以在谷歌的類ChatGPT產品Bard中體驗Gemini Pro版模型,該產品支援中文。
巴德位址:
* 位址: Gemini Pro API 位址:
雙子座簡介。
Gemini 有三個版本,Ultra 是最強大的版本,可以用於超複雜的推理和理解,但 AI 算力消耗也非常大
Pro 的引數只有 Ultra 的一半,但對於大規模應用部署來說,效能非常好Nano 是一種輕量級模型,適用於移動裝置和個人小規模部署。
雙子座介紹道。
在技術架構上,Gemini 模型的基礎設施建立在 Transformer 編碼器結構之上,採用多層自注意力和前饋神經網路對序列依賴關係進行建模。 不同的是,Gemini 採用了多查詢注意力機制,這也是處理複雜長文字的關鍵。
傳統的 transformer 結構採用單查詢注意力機制,即查詢鍵值對的拼接對於每個位置都是唯一的。 但對於非常長的序列,這在計算上會很昂貴。
Gemini 使用多查詢注意力機制,其基本思想是使用一組查詢向量,而不是序列中每個位置的唯一查詢向量。
具體來說,該模型首先將輸入序列的每個位置編碼為一組查詢向量。 然後,將這些查詢向量與鍵值對並行處理,得到多個注意力結果。
此外,Gemini 模型還使用類似詞片的 SentencePiece 演算法在詞級對輸入序列進行分割,可以支援多種語言,節省計算資源。
在訓練資料方面,Gemini 使用來自線上文字、書籍和**的大量資料進行預訓練。 在對資料進行取樣之前,開發者進行了嚴格的資料篩選,以去除暴力、虛假、歧視等有害內容。
雙子座的各種能力。
理解文字、音訊。
Gemini 模型在海量資料上進行訓練,以識別和理解文字、影象、音訊和其他內容,並回答與複雜主題相關的問題。 因此,非常擅長解釋數學和物理等複雜學科的推理任務。
生成**。 Gemini 可以生成和理解 Python、J**A、C++ 和 Go 等主流語言。 Gemini Ultra 在多個編碼基準測試中表現出色,包括 Humaneval,這是評估編碼任務效能的重要行業標準。
谷歌還基於Gemini模型開發了專業的**模型AlphaCode 2。 與上一代產品相比,AlphaCode 2 的效能至少提高了 50%。
複雜的推理。 Gemini 的多模態功能使其在視覺理解、文字生成等方面非常強大。 例如,從數十萬字中整理要點;
從 200 頁的財務報告中找出最有價值的內容。 這對金融、科技、醫療等領域的科研和業務人員有很大幫助。
對吟遊詩人的支援
目前,谷歌的 Bard 已經整合了 Gemini Pro 模型,AIGC 開放社群也體驗過,其理解和文字生成能力比以前強了很多,尤其是生成和評論能力非常出色。
雙子座全面超越GPT-4
谷歌在 MMLU、Drop、Hellaswag、GSM8K 等主流評測中對 Gemini 和 OpenAI 的 GPT-4 和 GPT-4 V 進行了深入評估。
測試資料顯示,Gemini Ultra 在大型語言模型研發中廣泛使用的 32 個學術基準中,有 30 個優於 30 個,是第乙個在 MMLU 上表現優於人類專家的大型模型。
此外,Gemini Nano 模型在移動裝置上展示了出色的自然語言處理能力。 特別是,在對目標任務進行微調後,它在閱讀理解和摘要生成等任務中優於其他同規模的模型。
谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)表示,Gemini是我們迄今為止功能最強大、用途最廣泛的型號,在許多領先的基準測試中表現異常出色。
Gemini 的第乙個版本針對不同的尺寸進行了優化,適用於不同的人群和行業。 Ultra、Pro 和 Nano 是 Gemini 的首批型號,也是我們創立 Google Deepmind 願景的首次實現。 我們很高興在未來繼續發布更強大的模型。
本文素材**Google官網,雙子座**,如有侵權,請聯絡刪除。
end