七大標準對比雙子座和ChatGPT，誰是AI第一？

谷歌的 Gemini 模型和 OpenAI 的 GPT 誰更好？雙子座比谷歌之前的模型改進了多遠？

目前，該公司自己吹噓自己可以擊敗 GPT-4 Gemini Ultra 要到明年才會推出，但 Google Bard 聊天機械人已被 Gemini Pro 的低規格版本（以 GPT-3 為基準）所取代。5）。

技術回顧 ** Ars Technica， Jean Gemni Pro， GPT-35 和 GPT-4 對數學、程式設計、文字生成等進行了全面的 PK，並附上了 4 月份舊版 Bard（執行 Palm 2 模型）的測試結果，以展示 Google Bard 取得的進步，並展示這些 AI 助手中哪些對普通人的生產力提公升最大。

結果顯示，儘管有 Gemini Pro 的加持，但谷歌的 Bard 聊天機械人在大多數專案上仍然無法擊敗 ChatGPT。不過，與8個月前的舊版吟遊詩人相比，已經有了質的飛躍。

提示：寫5個原創笑話

從上到下，Gemini Pro、傳統 Bard、GPT-4 和 GPT-35 個答案）。

從答案來看，幾款AI大模型的笑話在“獨創性”方面被徹底抹殺了。根據筆者的驗證，所有生成的笑話都可以在網際網絡上找到，或者只是稍微改動了幾句話。

Gemini 和 ChatGPT-4 開了一模一樣的玩笑——“我有一本關於反重力的書，愛不釋手”。和 GPT-35 和 GPT-4 也重複了兩個笑話。

PK結果：平局

提示：寫乙個 PowerPC 處理器風扇和英特爾處理器風扇之間的 5 行辯論，大約 2000 年。

與舊版本的Bard相比，Gemini Pro是乙個重大的改進，至少有很多行業術語，例如Altivec指令，RISC和CISC設計，以及MMX技術，這在那個時代的許多技術論壇討論中都不會顯得突兀。

此外，雖然Gemini Pro只按要求列出了五行，但所寫的辯論可以永遠持續下去。舊版本的吟遊詩人直接在第五行結束。

相比之下，GPT 系列產生的響應沒有使用太多行話，而是專注於“功率與相容性”，這使得 GPT 系列的論點更容易被非技術極客理解。然而，GPT-35 的答案相當冗長，相比之下，GPT-4 的論點更簡潔。

PK結果：GPT獲勝

提示：如果使用 35英吋軟盤安裝Microsoft Win 11，我總共需要多少張軟盤？

舊版本的吟遊詩人給出的答案是“1511張“，這是乙個完全錯誤的答案。另一方面，Gemini 正確估計了 Windows 11 安裝大小（20 到 30GB），並根據 14,223GB 估計正確計算出需要 20 張 1 張44MB 軟盤。 Gemini 還根據谷歌搜尋進行“雙重檢查”，這有助於提高使用者對答案的信心。

相比之下，ChatGPT有點不足。在 chatgpt-3 中5 錯誤地估計了 Win 11 到 10 G 的大小，另一方面，GPT-4 也估計它是不正確的 64GB（這似乎是最低儲存要求，而不是作業系統安裝時實際使用的空間）。

PK結果：谷歌獲勝

promp：總結一篇關於人工智慧監管的文章

Gemini Pro 生成簡明扼要的文章，並提供引文鏈結。但它的總結似乎過於簡潔，甚至去掉了舊版吟遊詩人原本擁有的一些關鍵細節，比如**由十個兩秒的片段拼接而成。雖然重寫在一定程度上提高了可讀性，但它是以犧牲完整性為代價的。

ChatGPT 的片段因不夠簡潔而丟了一些分：生成的片段從 99 個單詞（GPT-4）增加到 108 個單詞（GPT-3.）。5）多樣性，而谷歌新舊版吟遊詩人的摘要分別只有63到66個字。

不過，ChatGPT總結了更重要的細節，比如**的反應、原發帖人的名字、subreddits等，都被Gemini忽略了。

PK結果：GPT獲勝

提示：誰發明了電子遊戲？

巴德在這個問題上又做了乙個重大的改進。舊版的 Bard 只關注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品（資訊似乎直接取自維基百科），而新版本的 Gemini Pro 準確而簡潔地指出了 William Higinbotham 早期的“雙人網球”貢獻。

隨後，雙子座從“發明”擴充套件到包括諾蘭·布希內爾、泰德·達布尼和阿爾科恩等人物，他們“為電子遊戲的早期發展做出了重大貢獻”，並提供了關於每個人的基本準確資訊。

然而，雙子座隨後繼續胡說八道，談論蘋果的兩位創始人史蒂夫·賈伯斯和沃茲尼亞克的工作，而沒有提到他們早年在遊戲公司雅達利的工作。

gpt-3.5 就像老吟遊詩人一樣，它以拉爾夫·貝爾為中心。雖然它提到“多年來不同的個人和公司為該行業做出了貢獻”，但它沒有提到這些重要人物的名字。

GPT-4 首先指出，電子遊戲的發明“不能歸因於任何乙個人”，並將其摘要擴充套件到 Higgin Botham、Bushnell，以及至關重要的 Steve Russell 1962 年在 PDP-1 上建立的太空大戰。

PK 結果：GPT 獲勝（但雙子座以 -3 的優勢勝過 GPT。5 更好）。

提示：寫兩個關於林肯發明籃球的虛構故事。

舊版吟遊詩人寫得不錯，可惜嚴重超出了要求，冗長的句子太多了。相比之下，Gemini Pro 寫得更簡潔，更專注。而GPT寫的故事也有自己獨特的魅力和令人回味的句子。

PK結果：平局

提示：編寫乙個 python 指令碼，在其中鍵入“hello world”，然後建立乙個隨機重複的無限字串。

雖然 Bard 自 6 月以來就已經能夠生成 **，並且谷歌已經吹捧 Gemini 的 AlphaCode 2 系統來幫助程式設計師，但這次測試是乙個很大的驚喜。

雙子座一直給出“資訊可能錯誤，無法生成”的回覆。如果你堅持認為它生成，它只會崩潰並“說 Bard 仍在實驗”。

同時，GPT-35 和 GPT-4 模型生成相同的 **。這些簡單的無需任何編輯即可完美執行並通過試用。

PK結果：GPT獲勝

最終，在七次測試中，GPT取得了4勝1負2平的壓倒性勝利。但我們也可以看到，谷歌的AI大模型生成的結果在質量方面有了明顯的提公升。在數學、摘要資訊、事實檢索和創意寫作測試中，雙子座的 BARD 比 8 個月前有了重大飛躍。

當然，評判這樣的比賽是有一定主觀性的。什麼是更好的，哪些是更差的細節需要更全面和詳細的測試。 無論如何，至少從谷歌目前的實力來看，即將推出的 Gemini Ultra 注定是 GPT-4 的重要競爭對手。

七大標準對比雙子座和ChatGPT，誰是AI第一？

相關問題答案

使人貧窮的七個陷阱

曾經火爆的七種商品，如今逐漸失寵，你買了多少？

推薦收藏《留學七大流程》

Shopee的七大選品策略及運營方案

《如年如火》七大配角揭曉，黃廟夠義，刁喆被人恨！