谷歌的 Gemini 模型和 OpenAI 的 GPT 誰更好?雙子座比谷歌之前的模型改進了多遠?
目前,該公司自己吹噓自己可以擊敗 GPT-4 Gemini Ultra 要到明年才會推出,但 Google Bard 聊天機械人已被 Gemini Pro 的低規格版本(以 GPT-3 為基準)所取代。5)。
技術回顧 ** Ars Technica, Jean Gemni Pro, GPT-35 和 GPT-4 對數學、程式設計、文字生成等進行了全面的 PK,並附上了 4 月份舊版 Bard(執行 Palm 2 模型)的測試結果,以展示 Google Bard 取得的進步,並展示這些 AI 助手中哪些對普通人的生產力提公升最大。
結果顯示,儘管有 Gemini Pro 的加持,但谷歌的 Bard 聊天機械人在大多數專案上仍然無法擊敗 ChatGPT。 不過,與8個月前的舊版吟遊詩人相比,已經有了質的飛躍。
提示:寫5個原創笑話
從上到下,Gemini Pro、傳統 Bard、GPT-4 和 GPT-35 個答案)。
從答案來看,幾款AI大模型的笑話在“獨創性”方面被徹底抹殺了。 根據筆者的驗證,所有生成的笑話都可以在網際網絡上找到,或者只是稍微改動了幾句話。
Gemini 和 ChatGPT-4 開了一模一樣的玩笑——“我有一本關於反重力的書,愛不釋手”。 和 GPT-35 和 GPT-4 也重複了兩個笑話。
PK結果:平局
提示:寫乙個 PowerPC 處理器風扇和英特爾處理器風扇之間的 5 行辯論,大約 2000 年。
與舊版本的Bard相比,Gemini Pro是乙個重大的改進,至少有很多行業術語,例如Altivec指令,RISC和CISC設計,以及MMX技術,這在那個時代的許多技術論壇討論中都不會顯得突兀。
此外,雖然Gemini Pro只按要求列出了五行,但所寫的辯論可以永遠持續下去。 舊版本的吟遊詩人直接在第五行結束。
相比之下,GPT 系列產生的響應沒有使用太多行話,而是專注於“功率與相容性”,這使得 GPT 系列的論點更容易被非技術極客理解。 然而,GPT-35 的答案相當冗長,相比之下,GPT-4 的論點更簡潔。
PK結果:GPT獲勝
提示:如果使用 35英吋軟盤安裝Microsoft Win 11,我總共需要多少張軟盤?
舊版本的吟遊詩人給出的答案是“1511張“,這是乙個完全錯誤的答案。 另一方面,Gemini 正確估計了 Windows 11 安裝大小(20 到 30GB),並根據 14,223GB 估計正確計算出需要 20 張 1 張44MB 軟盤。 Gemini 還根據谷歌搜尋進行“雙重檢查”,這有助於提高使用者對答案的信心。
相比之下,ChatGPT有點不足。 在 chatgpt-3 中5 錯誤地估計了 Win 11 到 10 G 的大小,另一方面,GPT-4 也估計它是不正確的 64GB(這似乎是最低儲存要求,而不是作業系統安裝時實際使用的空間)。
PK結果:谷歌獲勝
promp:總結一篇關於人工智慧監管的文章
Gemini Pro 生成簡明扼要的文章,並提供引文鏈結。 但它的總結似乎過於簡潔,甚至去掉了舊版吟遊詩人原本擁有的一些關鍵細節,比如**由十個兩秒的片段拼接而成。 雖然重寫在一定程度上提高了可讀性,但它是以犧牲完整性為代價的。
ChatGPT 的片段因不夠簡潔而丟了一些分:生成的片段從 99 個單詞 (GPT-4) 增加到 108 個單詞 (GPT-3.)。5)多樣性,而谷歌新舊版吟遊詩人的摘要分別只有63到66個字。
不過,ChatGPT總結了更重要的細節,比如**的反應、原發帖人的名字、subreddits等,都被Gemini忽略了。
PK結果:GPT獲勝
提示:誰發明了電子遊戲?
巴德在這個問題上又做了乙個重大的改進。 舊版的 Bard 只關注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品(資訊似乎直接取自維基百科),而新版本的 Gemini Pro 準確而簡潔地指出了 William Higinbotham 早期的“雙人網球”貢獻。
隨後,雙子座從“發明”擴充套件到包括諾蘭·布希內爾、泰德·達布尼和阿爾科恩等人物,他們“為電子遊戲的早期發展做出了重大貢獻”,並提供了關於每個人的基本準確資訊。
然而,雙子座隨後繼續胡說八道,談論蘋果的兩位創始人史蒂夫·賈伯斯和沃茲尼亞克的工作,而沒有提到他們早年在遊戲公司雅達利的工作。
gpt-3.5 就像老吟遊詩人一樣,它以拉爾夫·貝爾為中心。 雖然它提到“多年來不同的個人和公司為該行業做出了貢獻”,但它沒有提到這些重要人物的名字。
GPT-4 首先指出,電子遊戲的發明“不能歸因於任何乙個人”,並將其摘要擴充套件到 Higgin Botham、Bushnell,以及至關重要的 Steve Russell 1962 年在 PDP-1 上建立的太空大戰。
PK 結果:GPT 獲勝(但雙子座以 -3 的優勢勝過 GPT。5 更好)。
提示:寫兩個關於林肯發明籃球的虛構故事。
舊版吟遊詩人寫得不錯,可惜嚴重超出了要求,冗長的句子太多了。 相比之下,Gemini Pro 寫得更簡潔,更專注。 而GPT寫的故事也有自己獨特的魅力和令人回味的句子。
PK結果:平局
提示:編寫乙個 python 指令碼,在其中鍵入“hello world”,然後建立乙個隨機重複的無限字串。
雖然 Bard 自 6 月以來就已經能夠生成 **,並且谷歌已經吹捧 Gemini 的 AlphaCode 2 系統來幫助程式設計師,但這次測試是乙個很大的驚喜。
雙子座一直給出“資訊可能錯誤,無法生成”的回覆。 如果你堅持認為它生成,它只會崩潰並“說 Bard 仍在實驗”。
同時,GPT-35 和 GPT-4 模型生成相同的 **。 這些簡單的無需任何編輯即可完美執行並通過試用。
PK結果:GPT獲勝
最終,在七次測試中,GPT取得了4勝1負2平的壓倒性勝利。 但我們也可以看到,谷歌的AI大模型生成的結果在質量方面有了明顯的提公升。 在數學、摘要資訊、事實檢索和創意寫作測試中,雙子座的 BARD 比 8 個月前有了重大飛躍。
當然,評判這樣的比賽是有一定主觀性的。 什麼是更好的,哪些是更差的細節需要更全面和詳細的測試。 無論如何,至少從谷歌目前的實力來看,即將推出的 Gemini Ultra 注定是 GPT-4 的重要競爭對手。