七大標準對比雙子座和ChatGPT,誰是AI第一?

Mondo 文化 更新 2024-01-29

谷歌的 Gemini 模型和 OpenAI 的 GPT 誰更好?雙子座比谷歌之前的模型改進了多遠?

目前,該公司自己吹噓自己可以擊敗 GPT-4 Gemini Ultra 要到明年才會推出,但 Google Bard 聊天機械人已被 Gemini Pro 的低規格版本(以 GPT-3 為基準)所取代。5)。

技術回顧 ** Ars Technica, Jean Gemni Pro, GPT-35 和 GPT-4 對數學、程式設計、文字生成等進行了全面的 PK,並附上了 4 月份舊版 Bard(執行 Palm 2 模型)的測試結果,以展示 Google Bard 取得的進步,並展示這些 AI 助手中哪些對普通人的生產力提公升最大。

結果顯示,儘管有 Gemini Pro 的加持,但谷歌的 Bard 聊天機械人在大多數專案上仍然無法擊敗 ChatGPT。 不過,與8個月前的舊版吟遊詩人相比,已經有了質的飛躍。

提示:寫5個原創笑話

從上到下,Gemini Pro、傳統 Bard、GPT-4 和 GPT-35 個答案)。

從答案來看,幾款AI大模型的笑話在“獨創性”方面被徹底抹殺了。 根據筆者的驗證,所有生成的笑話都可以在網際網絡上找到,或者只是稍微改動了幾句話。

Gemini 和 ChatGPT-4 開了一模一樣的玩笑——“我有一本關於反重力的書,愛不釋手”。 和 GPT-35 和 GPT-4 也重複了兩個笑話。

PK結果:平局

提示:寫乙個 PowerPC 處理器風扇和英特爾處理器風扇之間的 5 行辯論,大約 2000 年。

與舊版本的Bard相比,Gemini Pro是乙個重大的改進,至少有很多行業術語,例如Altivec指令,RISC和CISC設計,以及MMX技術,這在那個時代的許多技術論壇討論中都不會顯得突兀。

此外,雖然Gemini Pro只按要求列出了五行,但所寫的辯論可以永遠持續下去。 舊版本的吟遊詩人直接在第五行結束。

相比之下,GPT 系列產生的響應沒有使用太多行話,而是專注於“功率與相容性”,這使得 GPT 系列的論點更容易被非技術極客理解。 然而,GPT-35 的答案相當冗長,相比之下,GPT-4 的論點更簡潔。

PK結果:GPT獲勝

提示:如果使用 35英吋軟盤安裝Microsoft Win 11,我總共需要多少張軟盤?

舊版本的吟遊詩人給出的答案是“1511張“,這是乙個完全錯誤的答案。 另一方面,Gemini 正確估計了 Windows 11 安裝大小(20 到 30GB),並根據 14,223GB 估計正確計算出需要 20 張 1 張44MB 軟盤。 Gemini 還根據谷歌搜尋進行“雙重檢查”,這有助於提高使用者對答案的信心。

相比之下,ChatGPT有點不足。 在 chatgpt-3 中5 錯誤地估計了 Win 11 到 10 G 的大小,另一方面,GPT-4 也估計它是不正確的 64GB(這似乎是最低儲存要求,而不是作業系統安裝時實際使用的空間)。

PK結果:谷歌獲勝

promp:總結一篇關於人工智慧監管的文章

Gemini Pro 生成簡明扼要的文章,並提供引文鏈結。 但它的總結似乎過於簡潔,甚至去掉了舊版吟遊詩人原本擁有的一些關鍵細節,比如**由十個兩秒的片段拼接而成。 雖然重寫在一定程度上提高了可讀性,但它是以犧牲完整性為代價的。

ChatGPT 的片段因不夠簡潔而丟了一些分:生成的片段從 99 個單詞 (GPT-4) 增加到 108 個單詞 (GPT-3.)。5)多樣性,而谷歌新舊版吟遊詩人的摘要分別只有63到66個字。

不過,ChatGPT總結了更重要的細節,比如**的反應、原發帖人的名字、subreddits等,都被Gemini忽略了。

PK結果:GPT獲勝

提示:誰發明了電子遊戲?

巴德在這個問題上又做了乙個重大的改進。 舊版的 Bard 只關注 Ralph Baer 的 Brown Box 和 Magn**Ox Odyssey 的作品(資訊似乎直接取自維基百科),而新版本的 Gemini Pro 準確而簡潔地指出了 William Higinbotham 早期的“雙人網球”貢獻。

隨後,雙子座從“發明”擴充套件到包括諾蘭·布希內爾、泰德·達布尼和阿爾科恩等人物,他們“為電子遊戲的早期發展做出了重大貢獻”,並提供了關於每個人的基本準確資訊。

然而,雙子座隨後繼續胡說八道,談論蘋果的兩位創始人史蒂夫·賈伯斯和沃茲尼亞克的工作,而沒有提到他們早年在遊戲公司雅達利的工作。

gpt-3.5 就像老吟遊詩人一樣,它以拉爾夫·貝爾為中心。 雖然它提到“多年來不同的個人和公司為該行業做出了貢獻”,但它沒有提到這些重要人物的名字。

GPT-4 首先指出,電子遊戲的發明“不能歸因於任何乙個人”,並將其摘要擴充套件到 Higgin Botham、Bushnell,以及至關重要的 Steve Russell 1962 年在 PDP-1 上建立的太空大戰。

PK 結果:GPT 獲勝(但雙子座以 -3 的優勢勝過 GPT。5 更好)。

提示:寫兩個關於林肯發明籃球的虛構故事。

舊版吟遊詩人寫得不錯,可惜嚴重超出了要求,冗長的句子太多了。 相比之下,Gemini Pro 寫得更簡潔,更專注。 而GPT寫的故事也有自己獨特的魅力和令人回味的句子。

PK結果:平局

提示:編寫乙個 python 指令碼,在其中鍵入“hello world”,然後建立乙個隨機重複的無限字串。

雖然 Bard 自 6 月以來就已經能夠生成 **,並且谷歌已經吹捧 Gemini 的 AlphaCode 2 系統來幫助程式設計師,但這次測試是乙個很大的驚喜。

雙子座一直給出“資訊可能錯誤,無法生成”的回覆。 如果你堅持認為它生成,它只會崩潰並“說 Bard 仍在實驗”。

同時,GPT-35 和 GPT-4 模型生成相同的 **。 這些簡單的無需任何編輯即可完美執行並通過試用。

PK結果:GPT獲勝

最終,在七次測試中,GPT取得了4勝1負2平的壓倒性勝利。 但我們也可以看到,谷歌的AI大模型生成的結果在質量方面有了明顯的提公升。 在數學、摘要資訊、事實檢索和創意寫作測試中,雙子座的 BARD 比 8 個月前有了重大飛躍。

當然,評判這樣的比賽是有一定主觀性的。 什麼是更好的,哪些是更差的細節需要更全面和詳細的測試。 無論如何,至少從谷歌目前的實力來看,即將推出的 Gemini Ultra 注定是 GPT-4 的重要競爭對手。

相關問題答案

    使人貧窮的七個陷阱

    我之前問過很多人,川哥,你說多少錢才算是第一桶,我覺得對於很多歲的普通年輕人來說,萬元算是第一桶。之所以設定這個金額,並不是說這萬元可以買到什麼資產或商品,而是你已經初步了解了可以買到什麼樣的資產和商品。從現在開始,你的眼睛會更明亮,你的思維會更清晰,你就能輕鬆做事,你走的彎路也會少很多。當然,紀律...

    曾經火爆的七種商品,如今逐漸失寵,你買了多少?

    曾經炙手可熱的商品背後,隱藏著市場炒作和消費者狂熱的追求,以及時代的變遷。普洱茶曾被譽為 越老越香 的瑰寶,其 隨著市場炒作和傳說的渲染而興起。久而久之,普洱茶的魅力已經褪去,但它的魅力並沒有完全消散。如今,普洱茶正在經歷一場革命,以滿足更多消費者對品質和健康的需求。隨著普洱茶產業的發展和技術的進步...

    推薦收藏《留學七大流程》

    薩瓦迪卡 朋友們您好,最近有朋友在後台問過,如果你想出國留學,不知道從哪裡開始,今天就給大家講講留學的具體流程吧!計畫您的出國留學預算 對於國際學生來說,計畫他們的預算非常重要。在決定在哪個國家學習之前,您需要做好預算計畫。您可以採取以下幾個步驟來計畫您的出國留學預算 設定出國留學目標 考慮自己的興...

    Shopee的七大選品策略及運營方案

    市場調查和競爭對手分析。在選擇產品時,賣家首先需要進行市場調研和競爭對手分析。通過分析目標市場的需求和競爭對手的產品,可以更好地了解市場趨勢和競爭格局,幫助賣家選擇符合市場需求的產品。.產品質量和連鎖管理。產品質量是決定銷售成功與否的重要因素之一。賣家需要與可靠的供應商合作,以確保產品的質量和穩定性...

    《如年如火》七大配角揭曉,黃廟夠義,刁喆被人恨!

    火年 是一部時間線比較長 人物多的劇集。每個角色都被刻畫得生動活潑,給觀眾留下了深刻的印象。不僅主角組的許偉彪 王磊 鐘玉楠 張鵬 花子等備受關注,就連帝楚玉 黃四 胖老韓 刁喆 錢軍 王博遠 安飛亞等一些配角也引起了觀眾的熱議。吉德和黃四被描述為男主徐偉標在獄中認識的好兄弟,一直跟著他,充滿了濃厚...