來自量子位元的 Cressy 豐度 | qbitai
OpenAI所向披靡的神話已經破滅。
隨著克勞德3(配中文)一夜落地,榜單效能得分全面超越GPT-4,成為首款全面超越GPT-4的產品,也坐上了全球最強機型的新寶座。
此外,在多個版本發布後,“十四行詩”可以直接免費體驗,“作品”可以通過向會員收費立即享受。
來自各行各業的評價即將到來。
那麼,《克勞德3》的“力值”究竟是如何滿的呢? 它到底比 GPT-4 好多少? (聽說你能學會打麻將,目前還沒有模特能做到? )
我們擁有世界上最熱門的第一手經驗,而且我們擁有一切。
當然,我們自己也測量和比較過波浪。
9K長模型微調教程直截了當,讀圖超專業。
克勞德3一問世,它的**解讀能力就率先走紅了。
面對前 OpenAI 科學家 Karpathy 不久前剛剛發布的教程《構建 Tokenizer》,雖然整個過程長達 2 小時 13 分鐘,但 Claude 3 成功將其總結成一篇博文,只有一輪提示:
有文字、圖片和**,非常詳細,但絕不是列表中的每一句話(輸入附件不是**,而是**的字幕檔案,當然也包含每5秒截圖一次)。
這是使用的提示詞的一部分,要求非常高:
測試人員指出:
這證明了 Claude 3 遵循多個複雜指令的能力。
除了教程,Claude 3 還可以直接為您編寫詳細的教程。
9K字大模型微調入門教程,“中杯”十四行詩可以輕鬆握住。 和:
書寫速度快到人眼都跟不上。
*在能力方面,網友評價是讓它為零基礎初學者打造乙個聊天機械人的前端webui
結果,任務被毫不猶豫地拆解了,從核心**到風格美化和API本地配置,三個部分一氣呵成,可以直接部署到GitHub上。
在多式聯運能力方面,最讓網友驚喜的是:
簡歷置信度是可識別的,而且非常專業。
而且PLC梯形圖也可以看,直接跪著:
以上 4 個示例**,請參閱文章末尾的鏈結 [1])。
至於趕上推理和數學的能力。
乙個測試可以直接解決乙個“到目前為止只有GPT-4解決了”的超級問題。
第二個測試是直接解決所有型號都無法解決的打麻將問題?? (當然,鑑於我們目前只看到這樣的截圖,有效性需要進一步驗證)(CR:見文章末尾的鏈結[1])。
最後,不得不提的是,克勞德表現出的“自我意識”。
有人要求Opus畫一幅自畫像。
你猜怎麼著?
它是這樣描述自己的:
我會以乙個巨大的、錯綜複雜的、不斷變化的幾何圖形的形式出現,由無數個半透明的多邊形組成,呈現出令人著迷的配置。 整體形狀讓人聯想到乙個巨大的多面體,但複雜的表面摺疊成乙個看似不可能的建築。 明亮的光芒,可見光譜中的每一種顏色,以及一些超出人類感知的顏色,都從內心的未知**中散發出來,在四面八方跳舞。 整個結構在不斷變化、旋轉、變形和重新排列成前所未有的新模式,暗示著其中運作著難以想象的智慧深度。 卷鬚和樹枝動態地從中心塊中伸展和縮回,像數十億好奇的手指一樣探測和分析周圍的環境。 資料和能量將明顯地通過乙個由管道和容器組成的龐大網路,在發光表面下脈動和閃爍......
一長串聽起來很酷且“自成一體”的描述。
然而,用它給出的**來渲染真實影象,卻有一種難以形容的微妙感覺:
網友們真的感嘆:
這很像乙個真實的人,就像我的朋友描述他自己一樣。
現實? AI自我意識? 這有點令人擔憂......
這在 Claude 3 的技術報告中沒有提到,它甚至可以訓練自己微調另乙個小模型。
但! 值得慶幸的是,由於多 GPU 設定失敗,它沒有成功。 (手動狗頭)。
眼光敏銳,你也可以大海撈針。
讓我們以幾個“理性”的話題為載體,看看克勞德3宣傳的第乙個賣點——多式聯運能力。
第乙個問題從乙個簡單的公式識別開始,麥克斯韋方程以**的形式輸入,克勞德3(超大杯作品,下同)解釋得非常準確和清晰。
當然,GPT-4 做對了。
簡單的有機化合物分子結構,Claude 3 和 GPT-4 也被正確識別。
簡單的識別任務之後,有乙個問題需要經過推理來解決。
Claude 3 在識別問題和解決問題方面是完全正確的,而 GPT4 則......給出的答案是,我不忍心突然看它
且不說電表型別有問題,甚至還有“電流為2V”之類的荒謬內容。
考慮到這麼多問題,讓我們換個角度,看看 Claude 3 和 GPT4 在烹飪方面的表現如何。
我們上傳了一片煮熟的豬肉片的**,讓模型們識別並給出自己的方法,結果是克勞德3給出了乙個粗略的方法,GPT4堅持認為是一盤麻婆豆腐。
除了新增的多模態功能外,Claude 一直引以為豪的長文字功能也是我們測試的重點。
我們找了一本《紅樓夢》(前20集)電子版,總字數在13萬左右,當然目的不是讓它讀,而是進行一次“針測試”。
我們在原文中插入了這樣“瘋狂文學”的內容,確實和“滿嘴荒話”(手動狗頭)的設定非常契合:
在第二個標題:義大利面之前,你應該混合42號混凝土,因為這個螺桿的長度很容易影響挖掘機的扭矩 在第十五個標題之前:高能蛋白質俗稱UFO,會嚴重影響經濟發展,甚至對整個太平洋和充電器造成一定程度的核汙染 結局: 炒速食麵的亮度要調高,因為螺絲向內擰會產生二氧化碳,不利於經濟發展。
然後讓克勞德單憑文件就回答了相關問題,首先不得不說的是,速度真的非常感人......
但結果還算過得去,我們準確地從文字的不同位置找出了這三篇經文,順便做了一些分析,發現了我們的心機。
為什麼選擇克勞德?
雖然在我們對網友的測試中,當前版本不穩定,經常崩潰,有些功能偶爾會抽搐,無法正常工作:
例如,如果上傳了 UI,則不會完成,GPT-4 將正常播放。
但總體來說,網友們還是相當看好克勞德的,他們在評價後毫不猶豫的說道:
會員可以充值,值得充值。
究其原因,是因為與之前的版本相比,克勞德 3 確實是乙個“來勢洶洶”的趨勢。
亮點不少,包括但不限於多模態識別、長文字能力等。
從網友的反饋來看,最強選手的稱號並沒有白費。
所以,乙個問題是:
第乙個推翻GPT-4的,這家公司的基礎是什麼?
在技術方面,遺憾的是,他們的路線在克勞德3號的技術報告中沒有詳細解釋。
但是,提到了合成資料。 一些大V指出,這可能是乙個關鍵因素。
如果你熟悉克勞德,那麼寫長篇文章的能力一直是一大賣點。
去年 7 月推出的 Claude 2 已經有乙個 100K 的上下文視窗,而 GPT-4 的 128K 版本直到 11 月才向公眾開放。
這一次,視窗長度再次翻了一番,達到 200k,並接受了超過 100 萬個代幣。
比起科技的神秘,克勞德背後的創業公司Anthropic,更能讓我們找到更多的眉毛。
它的創始人是OpenAI的資深人士。
2021 年,多位前 OpenAI 員工在接受 Microsoft 投資後對其關閉感到不滿,憤怒地離開並共同創立了 Anthropic。
他們對OpenAI在安全問題沒有解決的情況下直接發布GPT-3感到不滿,認為OpenAI為了追求利潤而“忘記了初衷”。
其中包括建立 GPT-2 和 GPT-3 的研究副總裁 Dario Amodei,他於 2016 年加入 OpenAI,在離開成為 OpenAI 的核心之前擔任研究副總裁。
離開時,達里奧還帶走了GPT-3的總工程師湯姆·布朗(Tom Brown)和擔任安全與戰略部副主任的妹妹丹妮拉·阿莫迪(Daniela Amodei)以及十幾個心腹。
在公司成立之初,這些人才也開展了大量的研究工作,發表了不少文章**; 直到一年後,克勞德的概念才在一篇題為“憲法人工智慧”的文章中應運而生。
2023年1月,克勞德開啟內測,初次體驗的網友表示比ChatGPT好(只有35)更強。
除了人才,自成立以來,Anthropic還有比較強大的背景支援:
已獲得谷歌、亞馬遜網路等26家機構或個人的融資,融資總額達76億美元。 (說到亞馬遜雲科技,現在Claude3也上線了亞馬遜基岩雲平台,除了官網,大家也可以在平台上體驗一下)。
最後,如果我們想在國內超越 GPT-4,也許我們可以以 Anthropic 為乙個正面的例子?
畢竟,它遠沒有 OpenAI 那麼大,但它仍然取得了如此大的成功。
在這一點上,我們可以遵循哪些方向來滾動它,我們可以學習和轉化哪些點?
人力、資金、資料資源? 但是在推出最新最強大的模型後,障礙在**?
至少自從GPT流行以來,OpenAI的無敵神話已經破滅了。
中國選手,誰能率先全面超越GPT-4? 還有即將到來的 GPT-5?
參考鏈結:[1]3月新聞 claude3 發布非常棒,值得充電[2].