今天,我將解開A16Z研究報告的包裝。應對人工智慧計算的高成本
人工智慧(AI)領域正在經歷一場由計算能力驅動的革命。 不同於傳統的研發投入與產品價值之間的亞線性關係人工智慧的發展呈現出乙個獨特的特點:計算資源的增加直接導致產品效能的提高
但目前最大的挑戰是高昂的計算成本計算資源的要求要高出十倍這使得獲取計算資源成為人工智慧公司成功的關鍵因素。
事實上許多人工智慧公司將超過80%的資金用於計算資源。這種情況凸顯了當今人工智慧行業面臨的主要問題之一:計算能力成本。 本文的目的是深入了解構成人工智慧公司計算成本的各種因素,並提供乙個有助於了解當前行業格局的框架。
人工智慧 (AI) 模型,尤其是基於 Transformer 的架構,例如 GPT-3、GPT-J 或 BERT 等大型語言模型 (LLMS)模型的計算成本與模型的引數數量和輸入輸出令牌的長度密切相關
在 Transformer 模型中,對於具有 p 引數的模型,n 個令牌的輸入和輸出序列長度的前向傳遞(即推理)需要大約 2*n*p 浮點運算 (FLOPS)。 而要訓練相同的模型,每個令牌大約需要 6 x p FLOPS
除了計算成本外,記憶體要求還因模型的大小而異。 推理過程需要將模型引數 p 載入到記憶體中,而學習過程(即反向傳播)還需要為每個引數儲存額外的中間值。 例如,對於乙個擁有 1750 億個引數的模型,在訓練過程中需要在記憶體中保留超過 1 TB 的資料,這超出了任何現有 GPU 的能力,並且模型需要拆分到多個顯示卡上。
以 GPT-3 為例,它大約有 1750 億個引數,對於 1024 個代幣的輸入和輸出,計算成本約為 350 萬億次浮點運算 (TFLOPS)。 大約需要 3 個14*10 23 個浮點運算。 訓練這樣的模型已成為人類有史以來計算量最大的任務之一。 生成單個單詞的演算法比對數百萬條記錄進行排序的資料庫表要複雜得多。
GPU(圖形處理單元)在 AI 模型的計算中起著核心作用。 未來,AI加速卡或將成為獨立的產品系列
雖然從理論上講,A100 的效能可以將 GPT-3 的推理時間縮短到 1 秒左右,但瓶頸通常是將資料從專用圖形記憶體傳輸到張量核心的能力。 此外,1750 億個權重將占用 700GB 的儲存空間,需要分割槽和加權流技術。
由於訓練資料集的大小大約是推理提示的 300 萬倍,訓練時間會更長,大約是推理時間的10億倍。這個過程需要在大型計算集群、專用資料中心或更可能的雲中完成,通常使用高速互連和專用網路架構。
GPT-3 的乙個推理大約需要 A100 時間的 1 秒,其原始計算成本為每 1000 個代幣 0 美元0002 到 $00014相比之下,OpenAI 的價格為 0 美元002 1000 個代幣。
訓練 GPT-3 的成本要高得多。 只有 3 個我們可以估算出 14*10 23 次浮點運算的計算成本A100 卡的培訓費用約為 560,000 美元,因為不能滿負荷運轉,成本實際上會更高。 這只是單次執行的成本,而不是總成本。
外部基礎架構與內部基礎架構的選擇
許多初創公司,尤其是應用程式公司,在初始階段不需要構建自己的 AI 基礎設施。 相反,OpenAI或Hugging Face(用於語言模型)和Replicate(用於影象生成)等託管模型服務使創始人能夠快速找到產品與市場的契合度,而無需管理底層基礎設施或模型。
這些服務足夠好,以至於許多公司永遠無法擺脫對它們的依賴。 這些服務的定價是基於消費的,因此通常比執行獨立的基礎結構更經濟。 年收入超過 5000 萬美元、估值超過 10 億美元的應用公司正在使用託管模型服務。
另一方面,一些初創公司,尤其是那些訓練新的基礎模型或構建垂直整合的 AI 應用程式的初創公司,無法避免直接在 GPU 上執行自己的模型。
雲計算與資料中心建設
在大多數情況下,雲計算是 AI 基礎設施的正確選擇。 較低的前期成本、擴充套件和縮減的能力、區域可用性以及避免構建自己的資料中心的干擾對大多數初創公司和大公司都很有吸引力。
但此規則也有一些例外:
如果您的運營規模非常大,那麼建立自己的資料中心可能更經濟。
如果您需要雲提供商無法提供的非常特定的硬體。 例如,未廣泛使用的 GPU 型別,以及異常的記憶體、儲存或網路要求。
如果出於地緣政治原因,您找不到可接受的雲平台。
當然,您需要有足夠的 A100 來建造自己的 A100。 因此,絕大多數初創公司都將使用雲計算。
比較雲服務提供商
亞馬遜網路服務(AWS),Microsoft Azure和谷歌云平台(GCP)都提供GPU例項,但出現了專門針對AI工作負載的新提供商。 以下是許多創始人用來選擇雲提供商的框架:
:下表顯示了截至 2023 年 4 月 7 日的一些主要和較小的專業雲的定價。 這些數字僅供參考,可能會有所不同。
可用性:12 個多月來,NVIDIA A100 等最強大的 GPU 一直供不應求。
計算交付模型目前,大型雲僅提供具有專用 GPU 的例項,而專用 AI 雲提供額外的 AI 模型,可以處理單個任務,而不會產生例項的啟動和拆卸成本。
網路互聯:特別是對於培訓,網路頻寬是選擇提供商的主要因素。 對於影象生成,出口流量費用也可能是主要的成本驅動因素。
客戶支援:大型雲提供商服務大量客戶,難以及時響應小客戶。 許多專門的 AI 雲甚至為小型客戶提供響應式支援。
比較 GPU
頂級 GPU 在幾乎所有工作負載上都表現最佳,但最好的硬體也要貴得多。 為您的特定應用程式選擇正確的 GPU 型別可以顯著降低成本,並且可以成為商業模式可行性的決定性因素。
培訓需求:訓練大型模型是在伺服器場上完成的,最好使用多個 GPU、大量 VRAM 和高頻寬伺服器間連線(即使用頂級資料中心 GPU 構建的集群)。
推理需求:大型 LLMS 的引數數量太多,即使 LLM 推理也可能需要 H100 或 A100。 但較小的型號(例如 Stable Diffusion)需要的 VRAM 要少得多,即使使用 RTX 卡也是如此。
硬體支援絕大多數工作負載都在 NVIDIA 上執行,但有些工作負載開始嘗試使用其他供應商的硬體,例如 Google TPU。
模型優化和排程
軟體優化可以極大地影響模型的執行時間,並且通常可以產生高達 10 倍的收益。 但是,您需要確定哪種方法最適合您的特定模型和系統。
有些技術適用於相當廣泛的模型。 通常可以使用較短的浮點表示(即,FP16 或 FP8 與原始 FP32 相比)或量化(INT8、INT4、INT2)來實現與位數減少呈線性關係的加速。
其他優化是高度特定於模型的。 例如,Stable Diffusion 在推理所需的 VRAM 量方面取得了重大進展。
還有一類特定於硬體的優化。 NVIDIA 的 TensorRT 包括許多優化,但僅適用於 NVIDIA 硬體。
AI 任務的排程也可能造成重大的效能瓶頸或改進。 將模型分配給 GPU,以最大程度地減少權重交換如果有多個 GPU 可用,請選擇最佳 GPU 來執行任務通過提前批處理工作負載,最大限度地減少停機時間是一種常見的技術。
總之,模型優化仍然有點神奇,我們討論的大多數初創公司都在與第三方合作,以幫助解決其中一些軟體方面的問題。
目前,被廣泛接受的觀點是:最優引數的數量與訓練資料集的大小之間存在關係,即尺度定律。目前最好的大型語言模型 (LLMS) 是在 Common Crawl 上訓練的,Common Crawl 是 45 億個網頁的集合,約佔所有網頁的 10%。 培訓語料庫還包括維基百科和一系列書籍,儘管兩者都要小得多(據估計,只有大約1億本書存在)。 目前還不清楚我們是否能得到乙個比已經使用的資料集大 10 倍的非合成訓練資料集。
GPU 效能將繼續提高,但增長可能會放緩。 摩爾定律仍在發揮作用,允許放置更多的電晶體和更多的核心,但功率和IO正在成為限制因素。
即使模型和訓練集的增長放緩,人工智慧行業的增長和人工智慧開發者數量的增加也將推動對更多更快的GPU的需求。 在模型開發階段,開發人員使用了大量的 GPU 容量進行測試,目前沒有跡象表明當前的 GPU 短缺會在不久的將來緩解。
人工智慧基礎設施的持續高成本是否會造成障礙,使新進入者難以趕上資金充足的現有企業? 我們還沒有答案。 LLM 的訓練成本似乎是乙個障礙,但像 LLAMA 或 Stable Diffusion 這樣的開源模型帶來了更多的變數。
歸根結底,這將是一件好事:歷史已經證明了這一點這導致了生態系統的快速創新,並為企業家提供了大量機會。
如果您覺得這篇文章對您有幫助,歡迎點讚、收藏和分享。 同時,請關注我以獲取有關人工智慧的更多更新和見解!
2月** 動態激勵計畫