谷歌的大型語言模型,Gemini 10、一出來,就震撼人心。 首先,在效能上,無論是從對文字、影象、音訊的理解,還是對57個領域文字和數學問題的推理,都幾乎超越了自然語言世界的霸主GPT-4。 而在谷歌官網Gemini上也有這樣一段話,上面寫著“Gemini是第乙個在MMLU(Massive Multitasking Language Understanding)方面超越人類專家的模型”。
為什麼 Google Gemini 如此強大?其實,核心原因來自於用於訓練 Google Gemini 的兩款伺服器端推理晶元,TPU v4 和 TPU v5E。 雖然從結果來看,TPU和GPU都用於訓練和推理,但兩人在“解決問題的思路”上相差甚遠。
谷歌在 TPU V4 上採用了一種稱為光電路開關 (OCS) 的型別。 顧名思義,它是一組利用光來傳輸資訊的伺服器。 上圖是注入模組,它使用850nm雷射二極體發射850nm顯示光。 中間是乙個二向色分光器,用於分裂或合併光下面是乙個用於反射的2D MEMS陣列左右兩端是用於投射O波段訊號光的2D透鏡陣列和光纖準直器陣列。
OCS原理的簡化版傳統的伺服器組使用銅線導電,通過在規定時間內在銅線上傳輸的電子數來傳輸資訊。 但是任何介質,即使是不惜一切代價的金或銀,仍然具有電阻,這將不可避免地減慢電子在它們之間通過的速度。 沒有光電轉換環節,都是光傳輸的,也沒有中間人做差。
讓我們比較一下市場上最常見和最新的 Open AI 解決方案 NVIDIA H100 中使用的 Infiniband 技術。 此技術使用交換結構拓撲。 所有傳輸都從通道介面卡開始或結束。 每個處理器都包含乙個主機通道介面卡 (HCA),每個外設都有乙個目標通道介面卡 (TCA)。
說白了,H100類似於老驛站。 站會代表許可權中心接收訊息,這樣管理者就可以直接去站裡檢視他們未來的任務。 然而,TPU V4 是直接燃燒狼煙,不僅速度快,而且跳過了中間的所有訊息傳輸設施,一步到位。 據谷歌稱,OCS系統和底層光學元件**的成本不到TPU V4系統成本的5%,功耗不到整個系統的5%,使其價格便宜且易於使用。
說到這裡,我不得不提到谷歌創造的乙個概念,叫做MFU。 全稱是 Model Flops Utilization,它不同於其他衡量計算利用率的方法,並且不包括回傳期間的任何作業,這意味著 MFU 測量的效率直接轉化為端到端訓練速度。 也就是說,MFU的最大上限必須是100%,數字越大,訓練速度越快。
谷歌希望利用MFU的概念來評估TPU V4的負載能力和執行效率,從而確定谷歌Gemini可以應用多少強度。 對一系列純解碼器的 transformer 語言模型配置(下圖以 GPT 為例)進行了深入的基準測試,引數範圍從數十億到數萬億不等。 測試規定模型大小(引數單位十億)為晶元數量的一半。
不同場景下的 TPU V4 MFU 在 Google 的基準測試活動中,TPU V4 實現了 44-56% 的 MFU。 從下圖的比較中可以清楚地看出這一點,尤其是在多個 TPU v4 串聯的情況下。 而這正是OCS的魔力所在,谷歌希望用OCS向世界傳達乙個資訊:“相信光明。 ”
由於 TPU V4 如此強大,TPU V5E 作為迭代產品只會更好地工作。 其實,谷歌之所以將這款機型命名為 Gemini,也是因為這兩款 TPU。 雙子座原意是雙子座,代表希臘神宙斯和斯巴達王后勒達所生的雙胞胎卡斯托爾和波盧克斯。 TPU V4 和 TPU V5E 在某種意義上也是雙胞胎,因此得名雙子座。 當然,還有一種可能,開發者特別喜歡《聖鬥士星矢》,其中**生肖章BOSS是雙子座的傳奇,訣竅是銀河星爆。 但是,我認為後者的可能性較小。
還有一點是,一台伺服器最大的成本來自運維。 但是,在這種規模下,使用定期加權和檢查點永續性集群儲存的傳統方法無法保持高吞吐量,這需要定期關閉和重新啟動單元。 因此,對於 Gemini,Google 使用模型狀態的冗餘記憶體副本,如果發生任何計畫外的硬體故障,它可以直接從模型的完整副本中快速恢復。 與 PALM 和 PALM-2 相比,儘管使用了大量訓練資源,但這顯著加快了恢復時間。 結果,最大規模的訓練演習的總產出從85%增加到97%。
谷歌Gemini背後的伺服器組也是第一台支援嵌入式硬體的超級計算機。 嵌入是一種與谷歌業務相對接近的演算法。 嵌入本身就是乙個相對低維的空間,模型可以將高維向量轉換成這個低維空間。 嵌入可以更輕鬆地處理 習 大資料輸入,例如表示單詞的稀疏向量。 理想情況下,嵌入將語義相似的輸入放置在嵌入空間中,以捕獲輸入的某些語義。
嵌入是深度學習 習 推薦模型 (DLRM) 的關鍵元件,用於廣告、搜尋排名、youtube 和 Google Play。 每個 TPU V4 都包含乙個第三代稀疏核心資料流處理器,可將嵌入式相關模型加速 5 到 7 倍,但僅占用 5% 的晶元面積和功耗。
嵌入處理需要大量的端到端通訊,因為嵌入分布在模型上協同工作的 TPU 晶元周圍。 此模式強調共享記憶體互連的頻寬。 這就是 TPU V4 使用 3D 環麵互連的原因(與使用 2D 環麵的 TPU V2 和 V3 相反)。 TPU V4 的 3D 環麵提供了更高的平分頻寬,即從晶元的一半到互連中間的另一半,以幫助支援更多的晶元並更好地代表稀疏的核心效能。
毫無疑問,TPU V4,谷歌是一家軟體公司,谷歌雙子座是一家軟體產品,但谷歌勝在硬體上。 谷歌強調,雙子座是乙個強大的多模態模型。 多模態是指將多個感官輸入組合在一起,以做出更明智的決策,相當於可以使用複雜、多樣化和非結構化資料求解的模型。
短片**(360p到1080p)的資料量約為幾十MB到數百MB,語音的資料量約為幾百KB,一行文字的資料量約為幾B。 對於傳統的大型語言模型來說,如果只處理文字資訊,對伺服器的負載不會很高,畢竟資料量很小。 但是,一旦 ** 等一起處理,伺服器上的負載將呈指數級增長。 其實不是其他機型做不到多模態,而是其他伺服器處理不了這麼大的資料量,硬體拖累了軟體。 谷歌之所以敢於動手,更多是因為TPU V4和TPU V5E的大規模串聯場景,而高負載、高MFU無疑是谷歌的伎倆。
不過,谷歌並沒有太高興,首先,英偉達的張量計算GPU H200將在幾天後發布。 像Open AI這樣的大客戶,估計能夠盡快拿到手。 到時候,GPT,無論是推理還是訓練,都可能達到非常誇張的程度。
其次,Microsoft也採取了行動。 2019 年,Microsoft啟動了乙個名為 Athena 的專案。 通過設計和開發定製 AI 晶元來滿足訓練大型語言模型和驅動 AI 應用的獨特需求。 而Athena和TPU一樣,也是乙個內部專案,可以減少對NVIDIA等第三方硬體供應商的依賴。 雅典娜是乙個非常神秘的專案,人們對它的效能或外觀一無所知。 唯一可以知道的是,一些幸運的 Open AI 員工已經開始測試 Athena。
雖然目前還不清楚 H200 和 Athena 能給 Open AI 帶來哪些具體變化,但可以肯定的是,谷歌和谷歌雙子座承受著很大的壓力。
說起谷歌的TPU有乙個小故事,TPU的全稱是張量處理單元,中文是張量處理單元,是谷歌開發的一種特殊應用積體電路(ASIC),專門用於加速機器學習的習。 雖然在大眾眼中,谷歌在2024年5月的IO大會上宣布使用TPU,但實際上,TPU在2024年就已經面世了。
神經網路翻譯技術於2024年9月提出,2024年5月推出首個網際網絡NMT系統(神經網路機器翻譯系統)。 NMT技術克服了傳統方法將句子分割成不同片段進行翻譯的缺點,而是充分利用上下文資訊對句子進行整體編碼和解碼,從而產生更流暢的翻譯。
但是,以當時的技術,神經翻譯對伺服器造成的負載壓力非常大,主要是因為當時的硬體沒有那麼強大,沒有H100、A100等產品。 從已發表的**和谷歌部落格來看,谷歌當時其實有這樣的技術,而沒有使用的核心原因是硬體受不了。 經過大約半年的測試,TPU可以完美地適配伺服器,並作為演算法加速器使用。 IO大會當天,谷歌咬牙切齒,跺了跺腳,“我們也有NMT!”
谷歌的TPU一開始並沒有對外開放,直到2024年才開始有云TPU業務。 即使用者可以在雲上購買TPU,快速解決需要張量計算的業務。 2022 年,谷歌雲更新了 TPU V4 服務,這意味著使用者現在可以購買和使用上述各種技術,享受更高的推理和訓練能力。
谷歌和Open AI最大的區別在於,前者有很強的業務需求,而Google Gemini不會是乙個賺錢的工具,它更像是絕大多數人的新鮮高科技玩具。 但 Cloud TPU V4 不同,在截至 3 月 31 日的季度中,收入為 74 億美元,營業利潤為 14 億美元91億美元,利潤率為25%。谷歌的雲業務首次實現盈利,但利潤率仍然太低,尤其是與亞馬遜雲28%的利潤相比。 因此,雲TPU成為了谷歌業務的一大增長點,一旦谷歌GEMINI的效果得到好評,那麼它無疑是谷歌云TPU業務的推廣之王。