如何突破大型語言模型的最大瓶頸

Mondo 科技 更新 2024-03-07

譯者:布加迪。

OpenAI 的 GPT-4 和 Anthropic 的 Claude 2 等大型語言模型 (LLM) 以其生成類級文字的能力激發了公眾的想象力。 企業也很熱情,許多企業都在探索如何使用 LLM 來改進他們的產品和服務。 然而,嚴重限制在生產中採用最先進的 LLM 的乙個主要瓶頸是速率限制。 有一些方法可以打破這個速率限制,但如果不改進計算資源,可能不會取得真正的進展。

公共 LLM API 允許使用者訪問來自 OpenAI 和 Anthropic 等公司的模型,對每分鐘可處理的令牌(文字單元)數量、每分鐘請求數和每天請求數施加嚴格限制。

對 OpenAI GPT-4 的 API 呼叫目前限制為每分鐘 3 個請求 (rpm)、每天 200 個請求和每分鐘最多 10,000 個代幣 (TPM)。 最高檔位允許限制為 10,000 rpm 和 300,000 tpm。

對於需要每分鐘處理數百萬個令牌的大型生產級應用程式,這種速率限制使企業幾乎不可能使用最先進的 LLM。 請求數量不斷增加,需要幾分鐘甚至幾小時,而且沒有實時處理。

大多數組織仍在努力安全有效地大規模採用 LLM。 但是,即使他們解決了資料敏感性和內部流程方面的挑戰,速率限制也成為乙個頑固的障礙。 隨著產品使用和資料的積累,圍繞LLM開發產品的初創公司很快就會遇到瓶頸,但擁有龐大使用者群的大型企業受到的限制最大。 如果沒有特殊的訪問機制,他們的應用程式根本無法執行。

該怎麼辦? 一種方法是完全繞過速率限制技術。 例如,有一些專門構建的生成式 AI 模型沒有 LLM 瓶頸。 DiffBlue是一家總部位於英國牛津的初創公司,它依賴於沒有速率限制的強化學習技術。 它做得很好,非常有效,並且可能覆蓋數百萬行**。 它建立 j**a 單元測試的速度比開發人員快 250 倍,編譯速度比開發人員快 10 倍。

由 DiffBlue Cover 編寫的單元測試使您能夠快速了解複雜的應用程式,使大型企業和初創公司能夠充滿信心地進行創新,這是將傳統應用程式遷移到雲的理想選擇。 它還可以自主編寫新內容、改進現有內容、加速 CI CD 管道,並提供對變更相關風險的洞察,而無需人工審查。 還不錯。

當然,有些公司必須依賴 LLM。 他們有什麼選擇?

一種選擇是要求提高公司的利率限制。 到目前為止,這是乙個很好的做法,但潛在的問題是,許多LLM提供者實際上沒有額外的能力來提供良好的服務。 這是問題的癥結所在。 GPU 的可用性取決於台積電等代工廠的矽晶圓總數。 佔主導地位的 GPU 製造商 Nvidia 無法採購足夠的晶元來滿足 AI 工作負載帶來的一流需求,而大規模推理需要組合數千個 GPU。

增加 GPU 數量**的最直接方法是建造新的半導體製造晶圓廠,即所謂的晶圓廠。 但一座新晶圓廠耗資200億美元,需要數年時間才能建成。 英特爾、三星代工、台積電、德州儀器等主要晶元製造商正在美國建設新的半導體生產設施。 目前,大家只能等待。

因此,使用 GPT-4 的實際生產部署很少。 GPT-4 實際部署的環境範圍是有限的,他們使用 LLM 作為輔助功能而不是核心產品元件。 大多數公司仍在評估試點和概念驗證。 在考慮速率限制之前,您需要將 LLM 本質地整合到您的企業工作流程中。

GPU 限制限制了 GPT-4 的處理能力,這促使許多公司使用其他生成式 AI 模型。 例如,AWS有自己的晶元,專門用於訓練和推理(訓練後執行模型),為客戶提供更大的靈活性。 重要的是,並非每個問題都需要最強大和最昂貴的計算資源。 AWS 提供了一系列更便宜、更簡單的調整模型,例如 Titan Light。 一些公司正在探索替代方案,例如微調開源模型,例如 Meta 的 LLAMA 2。 對於涉及檢索增強生成 (RAG) 的簡單用例,較弱的模型就足夠了,在這些用例中,需要將上下文附加到提示並生成響應。

其他技術也可以提供幫助,例如跨多個具有高限制的傳統 LLM 並行處理請求、資料分塊和模型蒸餾。 有幾種技術可以降低推理的成本和速度。 量化會降低模型中權重的準確性,這些權重通常是 32 位浮點數。 這不是一種新方法。 例如,Google 的推理硬體張量處理單元 (TPU) 僅適用於權重量化為 8 位整數的模型。 該模型會失去一些精度,但要小得多,執行速度也快得多。

一種稱為“稀疏模型”的流行技術可以降低訓練和推理的成本,比模型蒸餾需要更少的人力。 LLM 就像許多較小的語言模型的集合。 例如,當你用法語向 GPT-4 提問時,你只需要使用模型的法語部分,稀疏模型就利用了這個功能。

您可以進行稀疏訓練,只需要訓練模型的法語子集,也可以進行稀疏推理並僅執行模型的法語部分。 當與量化一起使用時,這會從 LLM 中提取乙個較小的專用模型,該模型可以在 CPU 而不是 GPU 上執行。 GPT-4 之所以出名,是因為它是乙個通用的文字生成器,而不是乙個更窄、更具體的模型。

在硬體方面,專門針對AI工作負載的新處理器架構有望提高效率。 Cerebras 開發了一款針對機器學習進行優化的巨型晶圓級引擎,而 MantiCore 正在改造製造商丟棄的“廢棄”GPU 晶元,以提供實用的晶元。

最終,最大的成果將來自需要更少計算的下一代 LLM。 結合優化的硬體,未來的 LLM 可以突破當今的速率限制障礙。 目前,生態系統被急於利用 LLM 功能的急切公司所淹沒。 那些希望在 AI 領域開闢新道路的人可能需要等到 GPU** 進一步放慢速度。 具有諷刺意味的是,這些限制可能只是有助於消除圍繞生成式人工智慧的一些泡沫炒作,並讓行業有時間適應積極的模式,以便高效且經濟地使用它。

相關問題答案

    如何突破運動康復的瓶頸期?

    最近幾周,在與客戶鍛鍊 的過程中,出現了兩個有趣的現象。第乙個是梨狀肌壓迫坐骨神經的患者,當我第一次這樣做時,效果非常好。每次做 訓練時疼痛和麻木的症狀都得到了緩解,但最近客戶報告說效果不如以前了。我一直在想這是為什麼?同樣的運動處方,同樣的 訓練,效果怎麼會越來越差。後來我猜想,是因為剛來的時候臀...

    如何通過 API 將大型語言模型整合到您自己的應用程式中

    在現代應用程式開發中,利用強大的大型語言模型為應用程式新增智慧型和自然語言處理能力已成為一種趨勢。通過使用開放介面 API 開發人員可以輕鬆地將這些大型語言模型整合到自己的應用程式中,從而增強使用者體驗並增加功能的深度。本文將介紹一些基本步驟,以幫助您成功將大型語言模型嵌入到應用程式中。首先,需要選...

    當語言模型風口來臨時,中國企業如何抓住機遇?

    年月日,央視新聞網報道,工信部賽迪研究院資料顯示,今年中國中國大模型市場規模實現快速提公升,應用場景不斷豐富,增速有望超過 語言模型是指利用深度學習習技術,基於海量文字資料訓練的具有較強語言理解和生成能力的人工智慧模型,被認為是人工智慧領域的重要突破和未來發展方向。大型語言模型的興起源於國外Open...

    金融模型落地時如何突破算力瓶頸

    AI大模型的熱潮進一步加速了智慧型算力的稀缺,在此背景下,如何找到更高效的算力解決方案成為眾多銀行的難題。銀行智慧型算力不足的根本原因是什麼?一些地方內建的 算力池 和已經實現的AI代理,能否為大銀行模型提供 底層算力支撐 今年以來,越來越多的國內銀行積極擁抱大規模模型技術,並在眾多金融場景中廣泛應...

    大型語言模型 API 市場的演變

    隨著越來越多的企業進入機器習領域,大型語言模型 LLM API市場將如何發展?這個市場的起源可以追溯到 OpenAI 發布 ChatGPT,該遊戲迅速實現了 億美元的收入。然而,在去年的這個時候,大型語言模型API市場幾乎沒有競爭。巴德還沒有出現,更不用說克勞德了,雙子座在谷歌首席執行官桑達爾 皮查...