《科創板**》報道:該晶元的計算速度比英偉達GPU快10倍,而成本僅為前者的十分之一。 乙個大型模型以近 500 個代幣的速度生成,遠遠超過 ChatGPT(3 個)。5 是 40 個代幣)。
Groq 很像埃隆·馬斯克 (Elon Musk) 的“Grok”,但它的誕生時間比 Grok 早得多。 它成立於 2016 年,是一家人工智慧解決方案公司。
Groq 的 8 位創始人是 Google 早期 TPU 開發核心團隊的一員,而他們只有 10 位。 例如,GroQ創始人兼首席執行官喬納森·羅斯(Jonathan Ross)在加入Google X Rapid Analytics小組為谷歌母公司Alphabet設計和培育新賭注之前,負責原始TPU晶元的核心元件,在此之前,他是GoogleX Rapid Analytics團隊的一員。
儘管該小組源自 Google 的 TPU,但 Groq 並沒有走上 TPU 和 CPU 的道路。 Groq 使用一種全新的架構,即語言處理單元 (LPU)。
“我們正在做的不是乙個大規模的模型,而是乙個新的端到端處理器系統,可以為人工智慧大資料等計算密集型應用提供最快的推理能力,”Groq說。 ”
不難看出,Groq的產品注重“速度”,而“推理”是其主要關注點。
根據 AnyScale LLLMPERF 的說法,Groq 確實“快速”地做到了這一點,LAMA270B Groqlpu 推理引擎上執行,其輸出令牌吞吐量比任何其他雲推理提供商快 18 倍。
第三方組織人工分析AI 評估了 Groq,發現它在處理能力方面“遙遙領先”。
為了驗證其晶元的效能,Groq還在其官網上公布了一款大型軟體的免費版本,包括mixtral8 7b-32k、llama2-70b-4k和mistral 7b-8k,其中前兩個已經投入使用。
無花果Groq (LAMA 2) 與 ChatGPT
LPU的目標是突破兩大模型的瓶頸:計算密度和儲存頻寬。 根據 GroQ 的說法,對於 LLM 來說,LPU 比 GPU 具有更多的計算能力,因此每個單詞的計算速度會大大降低,生成的文字序列會更快。 同時,該演算法還克服了外部儲存的瓶頸,使其在大規模計算環境中比GPU更高效。
據了解,Groq晶元沒有使用NVIDIA GPU所依賴的HBM和CODOS封裝,而是使用14奈米工藝,每秒230 MB SRAM和80 TB儲存空間。 在計算能力方面,它可以實現整數(8位)計算的750 tops和浮點(16位)計算的188 tflops。
很明顯,“快速”是GroQ的主要優勢,也是它採用的SRAM的一大亮點。
SRAM 是目前最快的儲存器型別之一,但它價格昂貴,因此只能在 CPU 1 級和 2 級緩衝等條件下使用。
華熙**表示,目前可應用於記憶體計算整合的儲存器產品包括NAND快閃記憶體、SRAM、動態隨機存取儲存器、隨機存取儲存器(RRAM)和MRAM。 在這三類儲存器中,SRAM由於其在計算速度和能效方面的優勢,表現出更高的能效和更高的精度,尤其是在儲存器邏輯發展之後。 SRAM、RRAM將成為雲計算的主要儲存介質。