“張總,我們目前的解決方案不好,客戶的專案已經執行了兩周,沒有結果。”
這不是第一次發生這樣的匯報。 作為公司負責技術的CTO,張曉早在年初就推出了基於GPU的算力加速解決方案,滿足了市場對算力的迫切需求,客戶反響一直很好。 然而,自上個月以來,多個專案的GPU利用率一直不盡如人意,甚至一度跌破30%。 為此,張曉檢視了後台日誌,召集技術團隊想出了幾個應對方案,但還是收效甚微,這也讓他每晚都睡不著覺。
你不滿意,你根本就不滿意“,張曉嘟囔道。 事實上,該方案旨在充分滿足客戶的需求,最多支援幾百個GPU適合絕大多數客戶。 然而,出乎意料的是,隨著算力需求,很多客戶的GPU數量已經達到了四位數,在高併發應用下難以發揮軟體的效率,造成了大量的GPU資源閒置。
時間根本沒有給張曉在軟體上迭代的機會,誰也說不准這波算力會持續多久,漫長的軟體公升級週期讓客戶難以承受。 如今,唯一的解決辦法就是將客戶的GPU資源集中起來,這樣才能解決GPU數量爆炸的問題,同時也給自己留出足夠的時間。 但是,什麼是可靠的池化解決方案?對於張曉來說,他現在最希望的就是“從天而降”,幫他一氣呵成地解決所有問題。
其實像張曉這樣的案例並不少。 如今,在人工智慧的推動下,許多公司購買了大量的計算裝置,尤其是最昂貴的GPU。 但如果你真的想讓GPU工作,你需要強大的編譯和調優能力,這顯然不是每個人都有的。 在這種情況下,池化是大多數公司最合適的方式,將所有 GPU 計算能力放在乙個池中,根據需要進行分配,然後動態調整。
這也是OrionX Orion AI計算資源池軟體的初衷。 這是由 Trend Technology 開發的 GPU 應用程式。 在很多人的印象中,GPU已經是最小的計算單元,它的作用就是實現加速,我們聽到的更多是關於乙個專案使用成百上千個GPU加速卡,以及乙個大模型使用數千個GPU實現加速的新聞。 看似GPU加速是家常便飯,但實際上,OrionX技術可以在傳統IaaS硬體基礎設施架構之上,打造虛擬化的軟體定義資源池,讓GPU資源流經系統,實現靈活部署,滿足不同時間段、不同業務壓力的需求。
也就是說,OrionX技術實現了GPU加速資源的多維度共享,可以支援將多台伺服器上的GPU提供給單個虛擬機器或容器,也可以為同乙個虛擬機器或容器配備多個GPU資源池,可以最大化利用GPU資源,最大化AIGC等大模型應用的訓練速度。
AI算力的熱遷移是OrionX最大的優勢,也是非常適合實際業務場景的功能之一。 雖然GPU池化和虛擬化可以更好地實現雲服務的彈性伸縮,但在集群資源緊張或碎片化率較高的情況下,彈性伸縮的成功率較低。 OrionX 提供的 AL 算力熱遷移,可以將計算平台上執行的計算任務和資料從乙個物理計算裝置無縫遷移到另乙個物理計算裝置,從而在不影響業務連續性的情況下對 AI 計算資源進行動態管理和優化。
例如,在高效能計算、AI訓練等場景中,由於工作負載不均衡,部分AI計算資源可能會超載,而另一些則處於閒置狀態,這也是很多使用者最常遇到的問題。 通過將工作負載從過載的AI計算資源遷移到閒置的AI計算資源,可以實現資源的動態負載均衡,從而提高整體系統利用率和效能。
另乙個例子是剛才提到的碎片率問題。 在長時間執行的AI應用中,由於計算資源分配和釋放的不規律性,計算資源可能會碎片化,計算能力的利用效率可能會降低。 通過AI算力資源熱遷移技術,實現算力資源的動態組織與優化,重新整合碎片化的算力資源,提高算力的利用效率,降低算力碎片化對效能的影響,提高應用的效能和穩定性。
AI計算資源的熱遷移,也能更好地實現裝置運維。 在伺服器集群執行過程中,有時會需要對一些伺服器進行維護、公升級或下線,而原來執行在需要維護的伺服器上的工作負載可以通過該技術遷移到其他正常伺服器,從而在不影響整個系統的穩定執行和服務質量的情況下,實現對目標伺服器的離線維護操作。
現在我們可以回答一直困擾張曉的問題——原本閒置且難以實現GPU算力價值最大化的問題,在OrionX技術的加持下,在AI計算資源熱遷移的驅動下,可以實現GPU資源的整合和復用,真正實現負載均衡和按需分配, 這不僅大大提高了運營效率,而且可以承接更多的專案,讓應用觸手可及。
AI計算是必用卡,有卡必有趨勢。 這是天馳科技對AI算力應用和GPU資源應用的承諾。 如果你還在為如何發揮GPU算力的價值而著急,為什麼不趕緊安排呢?