最近關於大型語言模型的奇蹟已經說了很多。 這些榮譽大多是當之無愧的。 讓 ChatGPT 描述廣義相對論,你會得到乙個非常好(且準確)的答案。 然而,歸根結底,ChatGPT 仍然是乙個盲目執行其指令集的電腦程式(就像所有其他 LLMS 程式一樣)。 它對廣義相對論的理解並不比你最喜歡的寵物好。 不幸的是,我們用“類人”這個詞來描述工程師用來創造它們的技術——例如,“機器學習”和“訓練”。 這是誤導性的,因為乙個人的思想與人類不同。
這裡有一定的諷刺意味——乙個不能正確思考的聊天機械人怎麼能總結有史以來最聰明的人的發現? 為了理解 LLMS 的這種悖論性質,讓我們從優勢、劣勢和危險的角度進一步探索它們,看看我們如何利用像 Minio 這樣的資料和儲存解決方案來利用前者並減輕其他兩者的影響。 這些是每個工程師在為其組織培訓、測試和部署 LLMS 時都應該牢記的技術。
他們的 LLMS 的優點是,他們經過訓練可以理解用於建立單詞的訓練集中單詞的概率分布。 如果訓練集足夠大(即維基百科文章的語料庫或GitHub上的公共**),那麼模型將具有詞彙表和相應的概率分布,這將使它們的結果看起來好像它們對輸出的文字具有真實世界的理解。 讓我們更詳細地看另乙個例子——這次來自哲學。 問 ChatGPT 乙個問題,“.'cogito, ergo sum'這是什麼意思,是誰寫的? 您將獲得類似於以下文字的內容。
“Cogito, ergo sum”是乙個拉丁哲學命題,在英語中翻譯為“我思故我在”。 這句話與法國哲學家、數學家和科學家勒內·笛卡爾有關。 笛卡爾在1637年出版的《論方法》一書中表達了這一觀點。 這句話反映了笛卡爾試圖建立乙個不容置疑的基本真理——乙個人作為思考者的確定性。LLMS 使用概率分布來產生這樣的結果。 它的工作原理是這樣的,他們首先檢視問題中的文字,並確定“cogito”這個詞最有可能是答案中的第乙個詞。 從那裡,他們檢視問題和答案的第乙個單詞,以確定最有可能成為下乙個單詞的單詞。 這種情況一直持續到確定具有最高概率的特殊“答案結束”字元為止。
這種基於數十億個概率生成自然語言響應的能力並不可怕,相反,應該利用它來創造商業價值。 當您使用現代技術時,結果會變得更好。 例如,使用檢索增強生成 (RAG) 和微調等技術,您可以在 LLM 中了解您的特定業務。 實現這些類似人類的成果將需要資料,而您的基礎設施將需要強大的資料儲存解決方案。
這些下乙個令牌**功能不僅可用於為您的聊天機械人或營銷文案生成出色的文字,還可用於在您的應用程式中實現自動決策。 給定乙個結構整齊的提示,其中包含有關問題陳述和可呼叫 API(“函式”)的資訊,對語言的理解將使其能夠生成乙個答案,解釋應該呼叫什麼“函式”。 例如,在對話式天氣應用程式上,使用者可能會問:“如果我今晚要去芬威球場,我需要雨衣嗎? 通過一些巧妙的提示,可以從 LLM 查詢(麻薩諸塞州波士頓)中提取位置資料,並可以確定如何制定對天氣的更改com 沉澱 API。
在很長一段時間裡,構建軟體最難的部分是自然語言和語法系統(如API呼叫)之間的介面。 現在,具有諷刺意味的是,這可能是最簡單的部分之一。 與文字生成類似,LLM 函式呼叫行為的質量和可靠性可以通過使用微調和強化學習與人類反饋 (RLHF) 來輔助。
現在我們了解了 LLMS 擅長什麼以及為什麼,讓我們看看 LLMS 不能做什麼。
法學碩士不能思考、理解或推理。 這是LLMS的根本侷限性。 語言模型缺乏對使用者問題進行推理的能力。 它們是概率機器,可以對使用者的問題產生非常好的猜測。 無論猜測有多好,它仍然是乙個猜測,無論產生這些猜測什麼,最終都會產生一些不真實的東西。 在生成式人工智慧中,這被稱為“幻覺”。
如果訓練得當,幻覺可以保持在最低限度。 旋轉器和抹布也大大減少了幻覺。 底線 - 要正確訓練模型、微調模型並為其提供相關上下文 (RAG),您需要資料和基礎結構來大規模儲存它並以高效能方式提供它。
讓我們看看 LLMS 的另乙個方面,我將其歸類為危險,因為它會影響我們測試它們的能力。
LLMS 最流行的用途是生成式 AI。 生成式人工智慧不會產生可以與已知結果進行比較的具體答案。 這與其他 AI 用例形成鮮明對比,後者製作了易於測試的特定 **。 用於測試模型的影象檢測、分類和回歸非常簡單。 但是,您如何以公正、事實形象和可擴充套件的方式測試 LLMS 在生成式 AI 中的使用? 如果你自己不是專家,你怎麼能確定LLMS生成的複雜答案是正確的? 即使您是專家,人工審閱者也無法參與 CI CD 管道中發生的自動化測試。
業內有一些基準可以提供幫助。 Glue(一般語言理解評估)用於評估和測量 LLMS它由一組任務組成,用於評估模型處理人類語言的能力。 SuperGlue 是 Glue 基準測試的擴充套件,它引入了更具挑戰性的語言任務。 這些任務涉及共指解析、問答和更複雜的語言現象。
雖然上面的基準很有幫助,但解決方案的很大一部分應該是你自己的資料收集。 請考慮記錄所有問題和答案,並根據自定義結果建立自己的測試。 這還需要乙個可以擴充套件和執行的資料基礎架構。
你有它。 LLMS的優點、缺點和危險。 如果您想利用第乙個問題並緩解其他兩個問題,那麼您將需要資料和可以處理大量資料的儲存解決方案。