乙個真正可以與GPT-4競爭的AI基礎模型終於出現了。 北京時間12月7日凌晨,谷歌Deepmind發布了Gemini系列AI基礎機型,分為Gemini Ultra、Gemini Pro、Gemini Nano三個版本,其中Gemini Ultra在32次測試中超越了之前的SOTA機型,Gemini Pro將成為Bard之後的機型,Gemini Nano將搭載在Pixel上8 Pro是定位在端側的機型。
Gemini 是乙個原生的多模態模型,直接對 GPT-4 和 GPT-4V 進行基準測試,谷歌加強了其安全性,進行了最全面的安全評估,包括偏見和有害內容,以及防範網路攻擊和“越獄”等潛在風險。
Google AI Studio 是一款免費的基於 Web 的開發人員工具,允許開發人員使用 API 快速構建 AI 應用程式,Vertex AI 允許企業使用者自定義 Gemini 並完全控制他們的資料。
如果你對人工智慧新浪潮感興趣,有見識,有創業意向,歡迎掃碼新增“阿爾法助手”,記下你的“姓名+職位”,與我們深度對接。
今年 3 月中旬,OpenAI 的 GPT-4 發布,其效能碾壓了其他基於 AI 的大模型,這讓谷歌感受到了深深的威脅。 4 月 21 日,谷歌合併了兩個最強大的人工智慧實驗室 Google Brain 和 Deepmind,以集中其精英研究工作,並讓 Deepmind 的創始人 Demis Hassabis 領導公司。
和OpenAI一樣,哈薩比斯一直有建立AGI的願景,他在新聞發布會上說:“我始終相信,如果我們能製造出更智慧型的機器,我們就可以利用它們以不可思議的方式造福人類。 長期以來,我們一直希望構建新一代人工智慧模型,其靈感來自人類理解世界和與世界互動的方式。 這樣的人工智慧感覺不像是乙個智慧型軟體,而更像是乙個有用和直觀的東西——乙個專家助手或助手。 ”
一系列高效能原生多模態模型
Gemini 系列 AI 基礎模型分為三個版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。
Gemini Ultra 適用於高度複雜的任務;Gemini Pro 是效能和尺寸最平衡的版本,適合擴充套件各種任務;Gemini Nano 適用於裝置端,可直接安裝在移動裝置上。
不過,Gemini Ultra 在投放市場之前,還需要完成更嚴格的信任和安全檢查,以及紅隊測試和 RLHF,並且將於 2024 年初推出,主要面向開發者和企業客戶。
在效能方面,從自然影象、音訊和理解到數學推理,GeminiUltra 在 32 個廣泛使用的學術基準中的 30 個方面優於當前最先進的結果。
Gemini Ultra 的售價為 900%的分數成為第乙個在MMLU(大規模多工語言理解)上超越人類專家的模型,MMLU(大規模多工語言理解)是一項結合了數學、物理、歷史、法律、醫學和倫理學等57個科目的測試,以測試世界知識和解決問題的能力。
此外,值得注意的是,在推理、數學、編碼等幾項判斷大型模型真實能力的測試中,Gemini Ultra 幾乎普遍領先於 GPT-4。
以下是 Gemini 技術文獻中更詳細的對比,以了解 Gemini Ultra 和 Gemini Pro 與主流機型的效能差異。
在音訊和效能方面,與多模態能力相比,Gemini Ultra 在大多數測試中的表現也優於 GPT-4V,這凸顯了 Gemini 原生的多模態特性,並顯示出 Gemini 更複雜推理能力的早期跡象。
此外,Gemini Ultra 在更複雜的 MMMU 基準測試中取得了領先的 59 分該基準測試的得分為 4%,涵蓋了跨越不同領域並需要深思熟慮推理的多模態任務。
以前,建立多模態模型的標準方法包括分別訓練不同模態的元件,然後將它們拼接在一起以大致模擬這些特徵。 這些模型有時在執行某些任務(例如描述影象)方面表現良好,但在更概念化和更複雜的推理方面會遇到困難。
Gemini 是乙個原生的多模態模型,一開始就對不同的模態進行了預訓練,然後由 Google 使用額外的多模態資料進行微調,以進一步提高其有效性。 這有助於 Gemini 從頭開始無縫地理解和推理各種輸入。
這也使Gemini能夠理解文字、影象、音訊等,並能適應更複雜的應用。
對於對生成式人工智慧很重要的程式設計要求,谷歌使用Gemini的專有版本建立了乙個更先進的生成系統Alphacode 2,該系統擅長解決超越編碼並涉及複雜數學和理論電腦科學的競爭性程式設計問題。
Alphacode 2 比其前身有了巨大的改進,估計的表現優於 85% 的人類參賽者,而 AlphaCode 的資料則接近 50%。
負責任的製造商,強大的安全性
除了效能提公升,作為一家大型科技公司,谷歌一直非常重視人工智慧的安全性。 針對雙子座,谷歌做了以下工作:
1.對模型進行全面的安全評估,包括偏見和有害內容。
2.利用對抗性測試技術,幫助提前識別 Gemini 部署中的關鍵安全問題。
3.Gemini 與多元化的外部專家和合作夥伴合作,在一系列問題上進行了壓力測試。
4.為了限制危害,Google 構建了專門的安全分類器,用於識別、標記和過濾涉及暴力或負面刻板印象的內容。
5.與行業和更廣泛的生態系統合作,例如 MLCOMMONS、前沿模型論壇及其 AI 安全**。
Gemini Pro 的 Bard、Google AI Studio 和 Vertex AI 面向開發人員和企業使用者
在產品方面,谷歌將把Gemini模型的功能擴充套件到各種服務,如搜尋、廣告、Chrome和Duet AI(企業級生產力應用程式)。
直接對標ChatGPT的Bard,將把背後的模型從Palm2改為微調的Gemini Pro版本,實現更高階的推理、規劃、理解等功能。 然而,雖然 Bard 已經在 170 多個國家和地區推出,但 Google 將在未來開放更多模式並支援新的語言和地區。
明年初,谷歌將推出Bard Advanced,其背後的型號將是Gemini Ultra,而不是Gemini Pro。
Gemini Nano 將安裝在谷歌的 Pixel 8 Pro 智慧型手機上,提供音訊摘要、Gboard 的智慧型回覆等功能,以及未來更多的可能性。
此外,從 12 月 13 日開始,Google 將為開發者和企業客戶提供 Gemini API 以訪問 Gemini Pro 機型。
Google AI Studio 是一款基於 Web 的免費開發人員工具,允許開發人員使用 API 快速原型化和驗證產品功能。
Vertex AI 允許企業使用者自定義 Gemini 並完全控制他們的資料,它還提供完全託管的服務,並負責模型的安全性、私隱性以及資料治理和合規性。
雖然還需要在真實場景中進行測試,但 Gemini Ultra 是第乙個在真正意義上能力上匹配或超越 GPT-4 的 AI 模型,而之前的 Claude2 和 Inflection2 在一些細分測試中只趕上了 GPT-4 的分數。
從技術上講,Gemini模型的原生多模態正規化代表了大模型的發展方向,未來2-3年,新推出的大模型應該是多模態大模型。 只有當大模型具備多模態能力時,才能充分“了解”世界,並在未來催生出AGI的雛形。
此外,部署在移動端的 Gemini Nano 模型也代表了另一種趨勢,儘管與使用雲進行聯網的大模型相比,裝置端模型缺乏通用能力,但更靈活、更安全,並且經過微調後對特定任務具有高可用性。 隨著AI算力在終端側的不斷增強,它應該具有相當大的發展潛力。
在生態建設方面,谷歌為開發者提供了API和應用構建工具Google AI Studio,允許開發者使用先進的AI模型來構建自己的原生AI應用。 同時為企業使用者提供模型定製和模型部署服務。
這些做法與Meta、亞馬遜和阿里巴巴等科技巨頭的做法相似,它們都希望通過生成式人工智慧重塑業務,並建立新的生態系統來開闢第二條增長曲線。
其中,Meta 和阿里更為激進,不僅擁有雲平台,還開源了自己的基礎模型(llama2、通益千問);亞馬遜也不小,不僅提供自己的閉源模型,還對接了 Claude 等第三方的高階模型。
當然,在產品和生態創造方面,目前最成功的還是OpenAI的ChatGPT、助手API和GPTS。 而他成功的基礎是基於強大的GPT-4。
那麼,當 Gemini Ultra 的能力趕上 GPT-4 時,這對創業者意味著什麼?
首先,它讓每個人都做產品經理越來越實用,有產品想法和能力的人可以更快、更便宜地驗證他們的想法,而不需要太多的開發經驗。
對於那些擁有產品能力和開發能力的個體創業者來說,現在除了 GPT-4 之外,還有另一種足夠強大的模型可用,競爭有可能使 API 的成本更低,試錯空間更大。
對於基於 API 或自定義模型構建垂直應用程式的初創公司來說,他們有更多的選擇,並有望像開發人員一樣降低成本。 不過,真正降本可能還得等足夠高效、低成本的成熟算力晶元。
本文最初由Alpha Commune撰寫。
關於阿爾法公社