譯者:布加迪。
OpenAI 的 GPT-4 和 Anthropic 的 Claude 2 等大型語言模型 (LLM) 以其生成類級文字的能力激發了公眾的想象力。 企業也很熱情,許多企業都在探索如何使用 LLM 來改進他們的產品和服務。 然而,嚴重限制在生產中採用最先進的 LLM 的乙個主要瓶頸是速率限制。 有一些方法可以打破這個速率限制,但如果不改進計算資源,可能不會取得真正的進展。
公共 LLM API 允許使用者訪問來自 OpenAI 和 Anthropic 等公司的模型,對每分鐘可處理的令牌(文字單元)數量、每分鐘請求數和每天請求數施加嚴格限制。
對 OpenAI GPT-4 的 API 呼叫目前限制為每分鐘 3 個請求 (rpm)、每天 200 個請求和每分鐘最多 10,000 個代幣 (TPM)。 最高檔位允許限制為 10,000 rpm 和 300,000 tpm。
對於需要每分鐘處理數百萬個令牌的大型生產級應用程式,這種速率限制使企業幾乎不可能使用最先進的 LLM。 請求數量不斷增加,需要幾分鐘甚至幾小時,而且沒有實時處理。
大多數組織仍在努力安全有效地大規模採用 LLM。 但是,即使他們解決了資料敏感性和內部流程方面的挑戰,速率限制也成為乙個頑固的障礙。 隨著產品使用和資料的積累,圍繞LLM開發產品的初創公司很快就會遇到瓶頸,但擁有龐大使用者群的大型企業受到的限制最大。 如果沒有特殊的訪問機制,他們的應用程式根本無法執行。
該怎麼辦? 一種方法是完全繞過速率限制技術。 例如,有一些專門構建的生成式 AI 模型沒有 LLM 瓶頸。 DiffBlue是一家總部位於英國牛津的初創公司,它依賴於沒有速率限制的強化學習技術。 它做得很好,非常有效,並且可能覆蓋數百萬行**。 它建立 j**a 單元測試的速度比開發人員快 250 倍,編譯速度比開發人員快 10 倍。
由 DiffBlue Cover 編寫的單元測試使您能夠快速了解複雜的應用程式,使大型企業和初創公司能夠充滿信心地進行創新,這是將傳統應用程式遷移到雲的理想選擇。 它還可以自主編寫新內容、改進現有內容、加速 CI CD 管道,並提供對變更相關風險的洞察,而無需人工審查。 還不錯。
當然,有些公司必須依賴 LLM。 他們有什麼選擇?
一種選擇是要求提高公司的利率限制。 到目前為止,這是乙個很好的做法,但潛在的問題是,許多LLM提供者實際上沒有額外的能力來提供良好的服務。 這是問題的癥結所在。 GPU 的可用性取決於台積電等代工廠的矽晶圓總數。 佔主導地位的 GPU 製造商 Nvidia 無法採購足夠的晶元來滿足 AI 工作負載帶來的一流需求,而大規模推理需要組合數千個 GPU。
增加 GPU 數量**的最直接方法是建造新的半導體製造晶圓廠,即所謂的晶圓廠。 但一座新晶圓廠耗資200億美元,需要數年時間才能建成。 英特爾、三星代工、台積電、德州儀器等主要晶元製造商正在美國建設新的半導體生產設施。 目前,大家只能等待。
因此,使用 GPT-4 的實際生產部署很少。 GPT-4 實際部署的環境範圍是有限的,他們使用 LLM 作為輔助功能而不是核心產品元件。 大多數公司仍在評估試點和概念驗證。 在考慮速率限制之前,您需要將 LLM 本質地整合到您的企業工作流程中。
GPU 限制限制了 GPT-4 的處理能力,這促使許多公司使用其他生成式 AI 模型。 例如,AWS有自己的晶元,專門用於訓練和推理(訓練後執行模型),為客戶提供更大的靈活性。 重要的是,並非每個問題都需要最強大和最昂貴的計算資源。 AWS 提供了一系列更便宜、更簡單的調整模型,例如 Titan Light。 一些公司正在探索替代方案,例如微調開源模型,例如 Meta 的 LLAMA 2。 對於涉及檢索增強生成 (RAG) 的簡單用例,較弱的模型就足夠了,在這些用例中,需要將上下文附加到提示並生成響應。
其他技術也可以提供幫助,例如跨多個具有高限制的傳統 LLM 並行處理請求、資料分塊和模型蒸餾。 有幾種技術可以降低推理的成本和速度。 量化會降低模型中權重的準確性,這些權重通常是 32 位浮點數。 這不是一種新方法。 例如,Google 的推理硬體張量處理單元 (TPU) 僅適用於權重量化為 8 位整數的模型。 該模型會失去一些精度,但要小得多,執行速度也快得多。
一種稱為“稀疏模型”的流行技術可以降低訓練和推理的成本,比模型蒸餾需要更少的人力。 LLM 就像許多較小的語言模型的集合。 例如,當你用法語向 GPT-4 提問時,你只需要使用模型的法語部分,稀疏模型就利用了這個功能。
您可以進行稀疏訓練,只需要訓練模型的法語子集,也可以進行稀疏推理並僅執行模型的法語部分。 當與量化一起使用時,這會從 LLM 中提取乙個較小的專用模型,該模型可以在 CPU 而不是 GPU 上執行。 GPT-4 之所以出名,是因為它是乙個通用的文字生成器,而不是乙個更窄、更具體的模型。
在硬體方面,專門針對AI工作負載的新處理器架構有望提高效率。 Cerebras 開發了一款針對機器學習進行優化的巨型晶圓級引擎,而 MantiCore 正在改造製造商丟棄的“廢棄”GPU 晶元,以提供實用的晶元。
最終,最大的成果將來自需要更少計算的下一代 LLM。 結合優化的硬體,未來的 LLM 可以突破當今的速率限制障礙。 目前,生態系統被急於利用 LLM 功能的急切公司所淹沒。 那些希望在 AI 領域開闢新道路的人可能需要等到 GPU** 進一步放慢速度。 具有諷刺意味的是,這些限制可能只是有助於消除圍繞生成式人工智慧的一些泡沫炒作,並讓行業有時間適應積極的模式,以便高效且經濟地使用它。