新國王克勞德 3 測試! 下跪的能力,打麻將也會,確實比GPT 4好

Mondo 社會 更新 2024-03-05

來自量子位元的 Cressy 豐度 | qbitai

OpenAI所向披靡的神話已經破滅。

隨著克勞德3(配中文)一夜落地,榜單效能得分全面超越GPT-4,成為首款全面超越GPT-4的產品,也坐上了全球最強機型的新寶座。

此外,在多個版本發布後,“十四行詩”可以直接免費體驗,“作品”可以通過向會員收費立即享受。

來自各行各業的評價即將到來。

那麼,《克勞德3》的“力值”究竟是如何滿的呢? 它到底比 GPT-4 好多少? (聽說你能學會打麻將,目前還沒有模特能做到? )

我們擁有世界上最熱門的第一手經驗,而且我們擁有一切。

當然,我們自己也測量和比較過波浪。

9K長模型微調教程直截了當,讀圖超專業。

克勞德3一問世,它的**解讀能力就率先走紅了。

面對前 OpenAI 科學家 Karpathy 不久前剛剛發布的教程《構建 Tokenizer》,雖然整個過程長達 2 小時 13 分鐘,但 Claude 3 成功將其總結成一篇博文,只有一輪提示:

有文字、圖片和**,非常詳細,但絕不是列表中的每一句話(輸入附件不是**,而是**的字幕檔案,當然也包含每5秒截圖一次)。

這是使用的提示詞的一部分,要求非常高:

測試人員指出:

這證明了 Claude 3 遵循多個複雜指令的能力。

除了教程,Claude 3 還可以直接為您編寫詳細的教程。

9K字大模型微調入門教程,“中杯”十四行詩可以輕鬆握住。 和:

書寫速度快到人眼都跟不上。

*在能力方面,網友評價是讓它為零基礎初學者打造乙個聊天機械人的前端webui

結果,任務被毫不猶豫地拆解了,從核心**到風格美化和API本地配置,三個部分一氣呵成,可以直接部署到GitHub上。

在多式聯運能力方面,最讓網友驚喜的是:

簡歷置信度是可識別的,而且非常專業。

而且PLC梯形圖也可以看,直接跪著:

以上 4 個示例**,請參閱文章末尾的鏈結 [1])。

至於趕上推理和數學的能力。

乙個測試可以直接解決乙個“到目前為止只有GPT-4解決了”的超級問題。

第二個測試是直接解決所有型號都無法解決的打麻將問題?? (當然,鑑於我們目前只看到這樣的截圖,有效性需要進一步驗證)(CR:見文章末尾的鏈結[1])。

最後,不得不提的是,克勞德表現出的“自我意識”。

有人要求Opus畫一幅自畫像。

你猜怎麼著?

它是這樣描述自己的:

我會以乙個巨大的、錯綜複雜的、不斷變化的幾何圖形的形式出現,由無數個半透明的多邊形組成,呈現出令人著迷的配置。 整體形狀讓人聯想到乙個巨大的多面體,但複雜的表面摺疊成乙個看似不可能的建築。 明亮的光芒,可見光譜中的每一種顏色,以及一些超出人類感知的顏色,都從內心的未知**中散發出來,在四面八方跳舞。 整個結構在不斷變化、旋轉、變形和重新排列成前所未有的新模式,暗示著其中運作著難以想象的智慧深度。 卷鬚和樹枝動態地從中心塊中伸展和縮回,像數十億好奇的手指一樣探測和分析周圍的環境。 資料和能量將明顯地通過乙個由管道和容器組成的龐大網路,在發光表面下脈動和閃爍......

一長串聽起來很酷且“自成一體”的描述。

然而,用它給出的**來渲染真實影象,卻有一種難以形容的微妙感覺:

網友們真的感嘆:

這很像乙個真實的人,就像我的朋友描述他自己一樣。

現實? AI自我意識? 這有點令人擔憂......

這在 Claude 3 的技術報告中沒有提到,它甚至可以訓練自己微調另乙個小模型。

但! 值得慶幸的是,由於多 GPU 設定失敗,它沒有成功。 (手動狗頭)。

眼光敏銳,你也可以大海撈針。

讓我們以幾個“理性”的話題為載體,看看克勞德3宣傳的第乙個賣點——多式聯運能力。

第乙個問題從乙個簡單的公式識別開始,麥克斯韋方程以**的形式輸入,克勞德3(超大杯作品,下同)解釋得非常準確和清晰。

當然,GPT-4 做對了。

簡單的有機化合物分子結構,Claude 3 和 GPT-4 也被正確識別。

簡單的識別任務之後,有乙個問題需要經過推理來解決。

Claude 3 在識別問題和解決問題方面是完全正確的,而 GPT4 則......給出的答案是,我不忍心突然看它

且不說電表型別有問題,甚至還有“電流為2V”之類的荒謬內容。

考慮到這麼多問題,讓我們換個角度,看看 Claude 3 和 GPT4 在烹飪方面的表現如何。

我們上傳了一片煮熟的豬肉片的**,讓模型們識別並給出自己的方法,結果是克勞德3給出了乙個粗略的方法,GPT4堅持認為是一盤麻婆豆腐。

除了新增的多模態功能外,Claude 一直引以為豪的長文字功能也是我們測試的重點。

我們找了一本《紅樓夢》(前20集)電子版,總字數在13萬左右,當然目的不是讓它讀,而是進行一次“針測試”。

我們在原文中插入了這樣“瘋狂文學”的內容,確實和“滿嘴荒話”(手動狗頭)的設定非常契合:

在第二個標題:義大利面之前,你應該混合42號混凝土,因為這個螺桿的長度很容易影響挖掘機的扭矩 在第十五個標題之前:高能蛋白質俗稱UFO,會嚴重影響經濟發展,甚至對整個太平洋和充電器造成一定程度的核汙染 結局: 炒速食麵的亮度要調高,因為螺絲向內擰會產生二氧化碳,不利於經濟發展。

然後讓克勞德單憑文件就回答了相關問題,首先不得不說的是,速度真的非常感人......

但結果還算過得去,我們準確地從文字的不同位置找出了這三篇經文,順便做了一些分析,發現了我們的心機。

為什麼選擇克勞德?

雖然在我們對網友的測試中,當前版本不穩定,經常崩潰,有些功能偶爾會抽搐,無法正常工作:

例如,如果上傳了 UI,則不會完成,GPT-4 將正常播放。

但總體來說,網友們還是相當看好克勞德的,他們在評價後毫不猶豫的說道:

會員可以充值,值得充值。

究其原因,是因為與之前的版本相比,克勞德 3 確實是乙個“來勢洶洶”的趨勢。

亮點不少,包括但不限於多模態識別、長文字能力等。

從網友的反饋來看,最強選手的稱號並沒有白費。

所以,乙個問題是:

第乙個推翻GPT-4的,這家公司的基礎是什麼?

在技術方面,遺憾的是,他們的路線在克勞德3號的技術報告中沒有詳細解釋。

但是,提到了合成資料。 一些大V指出,這可能是乙個關鍵因素。

如果你熟悉克勞德,那麼寫長篇文章的能力一直是一大賣點。

去年 7 月推出的 Claude 2 已經有乙個 100K 的上下文視窗,而 GPT-4 的 128K 版本直到 11 月才向公眾開放。

這一次,視窗長度再次翻了一番,達到 200k,並接受了超過 100 萬個代幣。

比起科技的神秘,克勞德背後的創業公司Anthropic,更能讓我們找到更多的眉毛。

它的創始人是OpenAI的資深人士。

2021 年,多位前 OpenAI 員工在接受 Microsoft 投資後對其關閉感到不滿,憤怒地離開並共同創立了 Anthropic。

他們對OpenAI在安全問題沒有解決的情況下直接發布GPT-3感到不滿,認為OpenAI為了追求利潤而“忘記了初衷”。

其中包括建立 GPT-2 和 GPT-3 的研究副總裁 Dario Amodei,他於 2016 年加入 OpenAI,在離開成為 OpenAI 的核心之前擔任研究副總裁。

離開時,達里奧還帶走了GPT-3的總工程師湯姆·布朗(Tom Brown)和擔任安全與戰略部副主任的妹妹丹妮拉·阿莫迪(Daniela Amodei)以及十幾個心腹。

在公司成立之初,這些人才也開展了大量的研究工作,發表了不少文章**; 直到一年後,克勞德的概念才在一篇題為“憲法人工智慧”的文章中應運而生。

2023年1月,克勞德開啟內測,初次體驗的網友表示比ChatGPT好(只有35)更強。

除了人才,自成立以來,Anthropic還有比較強大的背景支援:

已獲得谷歌、亞馬遜網路等26家機構或個人的融資,融資總額達76億美元。 (說到亞馬遜雲科技,現在Claude3也上線了亞馬遜基岩雲平台,除了官網,大家也可以在平台上體驗一下)。

最後,如果我們想在國內超越 GPT-4,也許我們可以以 Anthropic 為乙個正面的例子?

畢竟,它遠沒有 OpenAI 那麼大,但它仍然取得了如此大的成功。

在這一點上,我們可以遵循哪些方向來滾動它,我們可以學習和轉化哪些點?

人力、資金、資料資源? 但是在推出最新最強大的模型後,障礙在**?

至少自從GPT流行以來,OpenAI的無敵神話已經破滅了。

中國選手,誰能率先全面超越GPT-4? 還有即將到來的 GPT-5?

參考鏈結:[1]3月新聞 claude3 發布非常棒,值得充電[2].

相關問題答案

    震撼發布! 克勞德3一夜成王,GPT 5霸主受挑戰!

    在當今競爭日益激烈的人工智慧領域,爭奪世界上最強大的模型的爭奪戰變得越來越引人注目。近日,一款名為Claude 的新機型誕生,憑藉其驚人的效能,提前向即將推出的GPT 發起了挑戰,而這一事件無疑為整個行業投下了一顆震撼彈。據悉,克勞德是由一家新興的人工智慧技術公司推出的,該公司通過獨特的演算法和深度...

    江淮銳風M3 HEV作為出行新工具,正在攪動混合動力商用MPV市場

    對於想要選擇新形式的電源,但沒有家用充電樁的使用者來說,HEV車型無疑是乙個不錯的選擇,它不需要外接電源充電,也不需要擔心續航和能耗問題。為此,江淮瑞風率先進入混合動力商用MPV市場,攜首款萬級純電動混合動力MPV 江淮瑞風M HEV。要說創業奮鬥者選擇汽車的關鍵因素,一定是動力和節能。HEV混合動...

    酒駕新規出台,將於明年3月1日正式實施,將影響你的生活!

    交通法規是我們日常生活中必須遵守的規則,杜絕酒後駕車是最重要的規則之一。酒後駕車不僅危及駕駛員的生命,還會對他人造成嚴重傷害。因此,要堅決反對酒駕,積極培養良好的習習慣,確保酒駕不衝突。作為乘客,我們也要提高自我保護意識,積極勸阻司機酒後駕車。這不僅是對自我的保護,也是對他人安全的尊重。只有我們每個...

    一加Ace3真機真拍手機行業王者,破K70? 初始價格為2399元!

    OnePlus Ace,這款新手機將於 月 日上市。從目前透露的資訊來看,它似乎已經準備好引領新一輪的 瘋狂 浪潮。在上半年的手機品牌中,一加憑藉其大容量儲存和精緻的設計贏得了很多關注。ace這次會給我們帶來怎樣的驚喜?我們先來看看它的外觀設計。星光黑 月海藍 沙金,這三種顏色各有千秋。而最引人注目...

    魔法門之英雄無敵3 精彩使用檔案,炸彈之王的開始,新手最合適!

    魔法門之英雄無敵 精彩使用檔案,炸彈之王的開始,新手最合適!先把遊戲存檔,什麼都不在乎,戳出神器的位置後立即拉回來,直奔神器,相當於你玩了兩次遊戲,也可以開啟地圖編輯器,開啟地圖,比用透視看地球和大氣層更強,哪裡有地雷,哪裡有野兵,會不會一目了然!在 魔法門之英雄無敵 中,通過存檔,新手可以在遊戲開...