目標是將大型模型的計算能力成本降低四個數量級

Mondo 科學 更新 2024-01-31

機器的心臟原裝。

作者:江靖玲

算力不足仍是制約通用人工智慧發展的重要因素。 根據 GPU Utils 今年 8 月的資料,目前全球 H100 等效算力的供給缺口已達到 430,000 個。 為了解決算力不足的問題,除了搶購和囤積英偉達之外,更多的解決方案正在湧現。

清華大學創業公司武文新瓊是這一領域的回應者。

不久前,Heart of the Machine 推出了一種新方法 FlashDeCoding++,由來自 Infinigence AI、清華大學和上海交通大學的聯合團隊提出。 這項工作不僅將 GPU 推理速度提高了 2-4 倍,而且還支援 NVIDIA 和 AMD GPU。 與 FlashDecoding 相比,這項工作在 NVIDIA A100 上實現了 37% 的平均推理速度提公升,在 AMD MI210 上實現了 300%+ 的效能提公升。

基於此工作,五文核心穹頂研發的infini-acc大模型計算優化引擎,通過模型、系統、硬體層面的系統優化,可以將大模型的推理速度提公升10倍,減少模型儲存空間10倍,將部署時間縮短到幾小時。

無文核心穹頂依託計算加速的核心優勢,幫助現有算力提供商提公升計算效能和價效比。 在核心優勢的基礎上,推出智慧型計算雲和一體化智慧型計算平台,支援異構算力排程,提供端到端一站式大模型落地解決方案。

通過對現有算力效率的提公升和對未使用的算力的啟用,悟文核心巨蛋希望為大模型市場帶來新的算力增量。 據五文核心穹頂CEO夏立雪介紹,未來優化後的算力成本將達到4個數量級,相比OpenAI可以壓縮2 3個數量級。 這意味著,如果應用方原本需要向OpenAI支付100元的代幣費,經過優化後,這個**最終會壓縮到1美分左右。

更值得一提的是,夏立雪在接受機心專訪時透露,將外**系統作為中介軟體,只是武文核心巨蛋商業化戰略的第一步五文核心穹頂的長期規劃是通過與算力中心合作,優化算力成本,直接向B端和C端開發者提供可直接排程的低成本算力。

我們的最終目標不僅僅是提供生態系統作為中間層,而是直接向市場提供計算能力。 未來,所有涉及大模型的服務和應用都將成為我們的潛在客戶。 ”

據武文新瓊介紹,成立半年內,公司已完成數億元融資,投資方包括騰訊、智普等戰略合作夥伴,以及徐匯資本、紅杉中國、Moolith、啟明創投、北極光創投、經緯創投、真**、綠洲資本等投資機構。

五文新瓊由清華大學電子系主任王宇創立,共有三位聯合創始人:

聯合創始人兼首席執行官夏立雪畢業於清華大學,是清華大學電子系主任王宇的第一位博士畢業生。 夏立雪長期致力於深度學習系統的設計方法論研究,曾入選AI2000全球人工智慧領域最具影響力學者榜單,史丹福大學學科前2%科學家榜單。 畢業後,夏立雪在阿里雲負責大型語言模型壓縮加速、生成式AI模型晶元等核心戰略專案。 擔任使用者增長產品技術負責人,幫助阿里雲孵化使用者增長產品從0到1,穩步獲得數億年營收。

聯合創始人兼首席技術官閆申根畢業於中科院軟體研究所,是國內最早從事AI高效能計算的研究人員之一。 作為商湯科技資料與計算平台部執行研究總監,幫助商湯科技搭建了20000個GPU的大規模高效能AI計算平台,主持開發了多款深度學習系統軟體,並帶領200人團隊在上海打造了3年的AI超算原型專案, 總投資67億。

聯合創始人兼首席科學家 戴國豪現任上海交通大學終身副教授,清遠研究院人工智慧設計自動化創新實驗室主任。 戴國豪在電路設計自動化、異構計算、架構架構等領域發表高水平文章50餘篇,被Google Scholar引用1000餘次。 先後承擔了包括國家自然科學**青年專案在內的多項縱橫專案,個人負責1000多萬元。

目前,武文新瓊團隊有100多人,研發團隊35%以上來自清華大學,團隊仍在快速擴張。 夏立雪表示,公司目前的業務重點是商業化,以確保五文核心巨蛋走在正確的商業道路上。

計算能力困難和昂貴的問題限制了大模型的發展

《機器之心》:您能簡單解釋一下公司成立的原因和目標嗎?

夏立雪:公司於今年5月註冊成立,3月組建核心團隊。

我們的成立與整個行業大模型的發展息息相關,自去年底以來受到了很多關注,引發了人們對其在不同行業應用的廣泛想象。

但與此同時,我們看到,從商業上講,它需要解決成本問題才能大規模實施。 很多場景的建立,需要從“賠錢賺錢”到至少“算賬”。

我是王宇教授的第一位博士生,畢業後加入了阿里雲。 在阿里雲工作期間,我一直與清華大學電子系保持著密切的溝通。 去年年底,王教授開始頻繁地和我討論大模型爆發後,從電子系的立場上,我們能為行業做些什麼,我們是只能提供學術價值還是產業價值

我們看到的最後一件事是核心問題中國整體算力遠遠不夠,僅僅依靠晶元層的工藝改進,等待多個晶元的增長,是無法解決這個問題的。

我們的目標是利用好現在能用到的算力,用好現在用不上的算力,從而幫助提供更多在大模型行業可用且更便宜的算力。

因此,我們的兩個核心技術方向是:一是晶元上大模型的極致效能優化;二是利用多種異構算力。 我們的目標是建立乙個生態系統,讓不同的模型可以自動部署在不同的硬體上,從而有效地利用這種未啟用的計算能力。

機器之心:團隊組成是什麼?

夏立雪:王宇先生是武文新瓊的發起人,核心成員為我、閆申根、戴國豪,我們先後負責阿里雲大模型壓縮加速、生成式AI模型晶元、上海AI超算樣機、國家自然科學**等專案。 我們的研發團隊成員參與了 Apache、Onnx、TensorFlow、PyTorch、PyG 等 AI 相關開源專案的建設,是這些專案的重要貢獻者。 超過35%的研發團隊來自清華大學,並且仍在快速擴張。

機器之心:你把自己定義為“追求大模型落地的極致能效”,為什麼會選擇解決這個問題,能效到底是什麼意思?

夏立雪:我們已經看到,大模型落地的能效問題一直懸在大家的頭上。

全球範圍內存在GPU可用性不足,即“不夠”,目前全球晶元缺口高達43萬H100等效算力。

二是“難用”,大模型訓練延遲敏感,容錯率低,部分硬體效能本身不如英偉達,因此即使構建了多元異構GPU集群,也很難在實踐中真正發揮出全部算力。

大模型作為人機互動的介面,在邊緣端應用中發揮空間較大,但邊緣側裝置能耗敏感,算力、儲存、頻寬不足,難以普及應用。

五文核心穹頂在追求大模型的極致能效中定義自己這裡的能源效率是指技術實際作用與消耗的能源量之比。

我們認為,能源效率水平是衡量生產力和競爭力的指標,例如,在物種競爭中,大腦皮層中的神經元數量決定了智力水平。 人類之所以能夠如此迅速地超越其他物種,主要原因在於他們掌握了烹飪技術,即如何在短時間內以低成本消耗大量能量來支援大腦中大量神經元的執行。 大型模型行業現在非常需要這樣乙個整體的、節能的“烹飪解決方案”。

同樣,在任何經濟和商業組織的競爭中,誰能以更快的速度、更低的能耗或成本取得更高的開發成果和產品質量,誰就更有可能獲勝。

機器之心:你提到全球晶元缺口很大,即使搭建了多異構GPU集群,在實踐中也很難真正發揮出所有的算力,而且這種算力不能得到充分利用或者能效低

夏立雪:在AI晶元市場,全球甚至沒有面臨“28定律”的格局,可以說是“19定律”。 英偉達佔據了絕對領先的市場份額,不僅因為其更強的硬體效能,還因為它在軟體生態方面的優勢。

反過來,軟體生態系統幫助NVIDIA積累了大量的應用模型資訊,使其能夠及時迭代下一代晶元的設計。 這形成了強大的生態飛輪,一旦英偉達的產能跟不上需求,將造成全球算力短缺。

儘管硬體廠商正在追趕英偉達,但他們在構建軟體生態系統方面仍然落後,這導致他們的硬體即使與英偉達的A100相媲美,也沒有被廣泛採用。 因此,構建乙個強大的軟體生態系統是當下的一項重要任務,而這正是我們正在做的事情。

機器之心:為什麼構建軟體生態系統很難?

夏立雪:軟體生態系統的發展需要時間、耐心和機會。 例如,英偉達很早就投入了大量精力來構建其軟體生態系統,經過長期的使用者培育和對圖形計算和高效能計算需求的準確洞察,這個壁壘已經逐漸建立起來,並且越來越厚。 如果硬體廠商錯失了這個先發制人的機會和市場機會,將很難獲得足夠的資金投入到高質量的晶元研發及其推廣使用中。

機器之心:如果國內大型模型公司和晶元公司直接合作建設智慧型計算中心,增加自己可以使用的算力,可能會面臨哪些問題?

夏立雪:如今,許多大型模型公司都在“乙個”共享空間中直接與晶元公司合作,以增加算力的可用性。

在這種合作中,雙方都需要從主營業務中汲取大量的人力和資源來適應,沒有人願意“把所有的雞蛋都放在同乙個籃子裡”。 在這種情況下,每家公司都會向多個潛在合作夥伴投入資源,例如一家示範公司和多家晶元公司。 此外,如果這種合作是以物質為基礎的,則需要多方共同承擔成本和價格,形成複雜的多維合作空間。

我們的目標是幫助簡化該部件的適配和優化過程,而無需客戶承擔聯合研發的風險,並提供更好的優化結果。 這實質上打造了乙個中層生態,一方面為算力使用者提供了更多的算力供應選擇,另一方面也幫助各硬體生態夥伴在下一次迭代中獲取真實的業務反饋。

我們的客戶不僅限於技術能力強的大型模型公司,還包括使用模型的公司。 能源效率對這些公司來說很重要,他們的人工智慧演算法與用例密切相關,以至於他們可能只能投入乙個 3 到 10 人的團隊來研究模型,但在我們的參與下,他們不需要再投入 30 人到乙個完整的工程團隊。

中層生態迎來機遇之窗

Machine Heart:為什麼你認為現在可以做到這一點?情況發生了怎樣的變化?

夏立雪:雖然晶元廠商通常會做一些軟體工作,但他們可以提供一些底層的基本命令來幫助開發者直接實現一些功能。 但是,在一些複雜的任務中,例如,現在已經出現了通用的大模型,就需要專門的人將大模型的任務需求轉化為硬體操作指令的組合。 例如,就像計算器上的加法和減法按鈕一樣,這些基本鍵的組合使我們能夠解決更複雜的問題。

我們看到的是,在通用大模型的時代,中間層的能效優化可以更有深度。 過去,要解決行業中的任務,需要定製模型。 像聊天技巧、翻譯技巧、搜尋引擎......這需要使用不同的模型來實現。 任務和演算法是繫結的,任務和演算法的協同設計只能進行,中間層落到系統上時要做很多不同的工作。

王老師過去創立的技術,和我們現在的工作有點相似,但是因為影象模型、語音模型和自然語言模型之間的巨大差異,如果想不賠錢,就只能針對單一型別的模型去做。

現在,我們可以使用乙個通用模型來解決多個任務。 通過下游任務微調,同乙個大型語言模型可以完成不同的任務。

由於大模型的模型結構高度統一,生態有很好的機會視窗,這樣我們就可以專注於這樣乙個更窄的領域,進行應用、演算法、系統之間的協同優化。 完成它的成本並非不可靠,否則將永遠不值得。

雖然模型訓練資料可能因公司而異,但模型結構是相似的,這使我們能夠在這個特定時間點開發乙個好的中間層工具,將不同的模型對映到不同公司的硬體。

機器之心:具體來說,過去和現在構建軟體生態的難度是什麼?

夏立雪:可以估算出亞分子的數量,以反映難度的變化。

例如,過去每個域和每個模型結構都有很多運算元,比如 PyTorch 運算元庫,大約有 2000 個運算元。 但在 GPT 或其他現在以 Transformer 系列為核心的大型模型中,操作員的數量最終可能會減少到不超過 100 人。

這意味著,雖然整體開發量仍然超過 2,000 個,但從使用量的角度來看,超過 99% 的計算都集中在這 100 個運算元上。 因此,我們可以專注於優化這 100 個運算元。 其他部分不再是優化的瓶頸。

Machine Heart:你在這件事上有什麼優勢?

夏立雪:我認為我們團隊本身就擅長這樣做。 清華大學一直致力於將有意義的演算法與真實場景相結合,打造具有商業價值的解決方案。

我們專注於模型、軟體、硬體的整合優化,以降低模型推理成本,並將實驗室的技術成果轉化為可持續的商業產品。

我們的工具有兩個特點,快速和高效。 這意味著使用該模型的人不需要了解底層細節,就可以有效地使用它,同時保證最佳效能。

機器之心:所謂的“m n”中間層到底是什麼?

夏立雪:正如我之前提到的,每家公司都會向多個潛在合作夥伴投入資源,這為合作創造了乙個複雜的多維空間。 我們的解決方案是在多花模型層和多異構晶元層之間建立乙個靈活相容的中間層,實現“M N”之間高效統一的部署,即“M模型”和“N晶元”。

我們將這組工作分解為三個起點,它們是:

從演算法到晶元階段,針對算力不足的問題,採用大模型計算優化引擎,使演算法適配晶元,提高晶元的可用性。

從晶元集群到模型階段,構建智慧型計算系統層,根據算力池的異構特性,幫助開發者遮蔽異構硬體的衝擊。

從模型到模型應用實現階段,我們提供端到端的實現服務,包括每個模型、其高效微調和計算優化,降低推理計算量級、延遲和成本。

為算力市場注入增量

機器之心:根據這個想法,你如何為算力市場帶來增量?

夏立雪:目前,我們已經完成了整體解決方案的驗證。

首先,我們用NVIDIA顯示卡驗證了優化工具的功能,在各種行業團隊競相優化NVIDIA的環境中,我們仍然實現了世界第一的優化效能,NVIDIA比SOTA高出約30%。

此外,我們在不同硬體上驗證了優化能力的通用性,我們的優化結果在AMD硬體上也是全球首創,測試效果提公升超過300%。

這表明我們的工具鏈在效能改進、支援不同硬體擴充套件的能力方面具有直接優勢,並且我們有許多與 10 多家硬體供應商合作的行動小組。

《機器之心》:您目前的整體商業模式是什麼?

夏立雪:國內算力短缺,所以大家不是在爭奪客戶,而是在爭奪有限的資源。 我們商業化的核心是提供優化的、更具成本效益的算力服務,以擴大供應並滿足客戶需求。

主要有兩個方面,一是為五金廠商提供“中間層封裝”,提高硬體可用性,從而開拓大型號市場,將產品銷售給更多客戶。

另一方面,基於中間層的能力,配合算力集群,優化和提高算力供給,提高算力使用的價效比。 在這一領域,我們與一些算力集群簽訂了合作協議。 未來,它將直接對接與大模型相關的客戶,並為他們提供計算能力。

機器之心:第二種商業模式是通過計算能力賺取差價嗎?

夏立雪:一般來說,價格差異意味著以低成本獲得算力,然後直接***就像中間人一樣。 但我們的目標是“做大蛋糕”,利用技術優化和適配能力,讓未被充分利用的算力更有價值。 這個“價格差異”,其實就是我們通過技術提供的增量算力。

我們正在做的包括擴大雜湊池,以便可以使用無法使用的卡片,並提高每張卡片的效率,使一張卡片的生產能力相當於兩張或更多卡片。 這樣一來,原本只能支援幾十家企業的算力,現在又可以支援上百家企業,這是乙個增量市場。

此外,我們的最終目標不僅僅是提供乙個生態系統作為中間層,而是為未來所有的服務和應用提供乙個大模型,無論是B端還是C端,都將是我們的潛在客戶。 因為他們需要大模型的計算能力,我們可以提供高價效比且易於開發的計算服務。 這些服務還可能包括某些開發工具。

機器之心:使用你們產品的成本是多少?客戶成本能降低多少?

夏立雪:通過軟硬體協同優化,我們的目標是最終實現呼叫成本降低約4個數量級。

前段時間,我們推出了大模型五瓊天泉,它處理長文字非常出色,有256k令牌,這是當時大模型可以處理的最長文字長度,大約是40w漢字長度的文字。 一方面,這證明了我們優化的系統架構的可靠性,另一方面也凸顯了五文核心球機在長文字等高效能優化要求場景下的技術實力。

給ChatGPT輸入40W字是非常昂貴的,現在業界普遍反映成本很高,做推理也非常昂貴,甚至有創業者說“GPT已經經營了四個月,投資了五六千,使用者五六千,賺了幾十塊錢”。 大多數開發者和使用者都無法接受這麼高的**和這麼低的生產比例。

目前,五文核心穹頂已經實現了2 3個數量級的成本壓縮,目標是最終將這個**降低4個數量級,讓大模型的應用不再是“驅動蘭博基尼送餐”。 我們希望充分發揮異構算力的潛力,降低成本,降低模型訓練和推理的門檻,讓更多的創作者進入這個領域。

機器之心:在理想化的狀態下,未來能走多遠?

夏立雪:我們的口號是“釋放無穹頂的力量,讓AGI觸手可及”。 我們希望,當您使用大型模型開發內部或外部應用程式時,呼叫我們的雜湊率就像使用 API 一樣簡單。 在使用我們的服務時,您無需關心其背後的具體技術,例如是否是特定品牌的卡。

交流請新增本文作者微信:jjingl-(註明公司-職位-名稱)。

相關問題答案