Claude 2 1 發布一次性處理 200kToken,大佬測試能否超越 ChatGPT

Mondo 健康 更新 2024-01-19

當 Open AI 忙於決定他們的首席執行官時,他們最大的競爭對手 Anthropic 發布了 Claude 21 更新最引人注目的是,它現在可以一次處理長達 200k 的令牌。

在人工智慧領域的最新進展中,包括:Anthropic 發布了 Claude 21.一次最多可處理200,000個代幣此更新標誌著大型 AI 模型處理資訊的能力有了顯著提高。

200K 相當於 500 多頁的文字,並且是 Pro 和 API 使用者獨有的,這意味著只有付費使用者才能體驗到這一獨特功能。

與 Open AI 之前發布的 GPT-4 128K 版本相比,Claude 21 的上下文長度幾乎翻了一番,達到 200,000 個令牌,相當於閱讀了一本《百年孤獨》或乙份 500 頁的檔案,這無疑提高了機械人處理大規模資料的能力。 Anthropic聲稱,這一舉措是業內首創,它使機械人能夠瀏覽整個圖書館或文學作品。

Anthropic 還表示,此更新使:克勞德在回答問題和處理文字時將幻覺或錯誤的頻率減少了一半同時還利用自定義工具來執行 Web 搜尋和計算等任務。 而在文字閱讀方面,克勞德 21 在 70k 和 195k 長度的文字任務中,生成的錯誤答案減少了 30%

然而,儘管更新帶來了顯著的效能提公升,但實際上,Claude 21 有侷限性。 例如,當面對乙個複雜的事實問題時,它傾向於拒絕回答而不是提供錯誤的答案。 拒絕回答,雖然比幻覺好,但仍然不能解決使用者的問題。

在稱為“大海撈針”的壓力測試中,即使處理能力高達 200k 也可能無法確保從大量文字中準確檢索資訊,尤其是當關鍵資訊放置在文件深處時。

這項由格雷格·卡姆拉特(Greg Kamradt)進行的測試花費了1000多美元,結果發表在X上。 他發現文件的上下文長度超過 90k 個標記後,claude 21.獲取資訊的準確性特別惡化。特別是在深入搜尋近 500 頁的文件時,Claude 21 只有當關鍵資訊放在文件的開頭或結尾,並且在文件的中間幾乎完全銷毀時,才有可能準確召回。

這些測試結果表明,儘管克勞德 21 理論上具有處理較大資料量的能力,但在實際應用中檢索成功率不高。 相比之下,GPT-4 在檢索準確率方面保持了較高的成功率,儘管它僅支援 128K 的上下文長度,顯示出其在處理大規模資料方面的優勢。 對於高達 73K 的文字,GPT-4 可以準確地找出資訊。

這個結果非常接近我的實際經驗,GPT-4遙遙領先。 但是當涉及到超過3000個漢字的文字(輸入+輸出)時,支援質量就會下降。

Anthropic 的最新版本 Claude 21 中還引入了一系列新工具,進一步縮小了與 ChatGPT 的功能差距。 在API介面中,使用者可以根據上下文自由選擇使用,例如計算器和網頁搜尋。 通過自然語言處理,使用者可以以自然對話的方式請求特定的 API 呼叫,並快速生成相應的 API SDK**。

此外,Anthropic 還更新了開發人員控制台,增加了乙個新的測試視窗,允許開發人員試驗和優化新提示。 這些改進使 Claude 能夠自定義持久指令,允許使用者根據自己的需求定製聊天機械人的響應和個性化特徵。 與 GPT-4 類似,這意味著聊天機械人可以更精細地定製以滿足特定用例,例如連線到私有 API 或構建自己的知識庫。

在定價方面,Claude 21 保持與之前版本相同的費用結構,即 API 使用每 100 萬個輸入令牌 8 美元或每 100 萬個輸出令牌 24 美元的**。 即時版本的費用設定為每輸入 100 萬個代幣 163 美元,產出 5 美元51 美元。

如果您對此資訊感興趣,請點贊、收藏和分享。 同時,關注我,獲取人工智慧領域的最新訊息和見解!

參考:

相關問題答案