財聯社12月19日電(牛佔林主編)。如果說AI模型有最強大的功能之一,那一定是最基本的文字處理功能,但一家名為Patronus AI的初創公司的研究人員發現,即使是最強大的大模型,目前也無法準確分析美國證券交易委員會(SEC)的財報檔案。
OpenAI 的 GPT-4-Turbo 可以說是目前市場上效能最好的 AI 模型,在 Patronus AI 的最新測試中,只有 79% 的 SEC 檔案問題答案是正確的。
如果你讓普通的人工智慧工具來回答這類問題,它們要麼無法回答,要麼會出現“幻覺”,也就是說,它們會編造出SEC檔案中沒有的數字和事實。
Patronus AI的聯合創始人Anand Kannappan表示:“這樣的效能是絕對不可接受的,它必須更加準確,才能真正開始以自動化和生產就緒的方式工作。 ”
這些發現凸顯了人工智慧模型面臨的一些挑戰,因為大公司,尤其是金融等受監管行業的大公司,正在尋求將尖端技術整合到他們的業務中,無論是客戶服務還是資料研究。
自去年年底 ChatGPT 推出以來,快速提取重要數字和文字以及分析財務報表的能力一直被視為聊天機械人最有前途的應用之一。 美國證券交易委員會的檔案充滿了重要資料,如果人工智慧能夠準確地總結這些資料或快速回答有關其中內容的問題,它可能會讓使用者在競爭激烈的金融行業中佔據優勢。
因此,各大投行和金融公司正在為此做出安排。 全球最大的金融資訊公司彭博GPT發布了專門為金融領域打造的大型模型,商學院教授研究了ChatGPT是否可以分析金融頭條新聞,摩根大通正在開發一種人工智慧驅動的自動投資工具。 根據麥肯錫最近的乙份報告,生成式人工智慧每年可以為銀行業創造數萬億美元的收入。
在金融領域的應用
但AI進入金融行業並非一帆風順。 當 Microsoft 首次使用 OpenAI 的大型模型推出 Bing 聊天機械人時,其主要示例之一是結果新聞稿的快速摘要。 觀察家們很快意識到,Microsoft公布的數字是錯誤的,其中一些甚至完全是捏造的。
根據 Patronus AI 的聯合創始人的說法,將大型模型整合到實際產品中的部分挑戰在於它們是不確定的——它們不能保證每次都以相同的輸入獲得相同的輸出。 這意味著公司需要進行更嚴格的測試,以確保它們正常執行,不偏離主題,並提供可靠的結果。
Patronus AI 測試了四個大型模型:OpenAI 的 GPT-4 和 GPT-4-Turbo、Anthropic 的 Claude2 和 Meta 的 LLAMA 2。 在進行了相關測試後,Patronus AI的兩位聯合創始人對大模型的糟糕效能感到驚訝。
Patronus AI 的 Rebecca Qian 指出,“令人驚訝的是,大型模型經常拒絕回答問題,而且拒絕率非常高,即使答案在上下文中,即使答案在上下文中,即使是普通人可以回答的問題。 ”
然而,該公司也認為,如果人工智慧繼續進步,像GPT這樣的大型模型將有很大的潛力幫助金融業的人們——無論是分析師還是投資者。
OpenAI 的一位代表指出,該公司的使用指南禁止在沒有合格人員審查資訊的情況下使用 OpenAI 模型提供量身定製的財務建議,並要求任何在金融行業使用 OpenAI 模型的人免責宣告。 OpenAI 的使用政策還指出,OpenAI 的模型尚未經過微調以提供財務建議。