Supermicro推出三款基于NVIDIA技術的全堆棧結構、可立即部署型生成式AI SuperCluster,從企業(yè)級擴展到大型LLM基礎架構
關鍵詞: Supermicro NVIDIA技術
全棧式SuperCluster包括氣冷、液冷訓練與云端級推理機柜配置,并搭載全新NVIDIA Tensor Core GPU、網絡與NVIDIA
AI Enterprise軟件
Supermicro,
Inc.(納斯達克股票代碼:SMCI)作為AI、云端、儲存和5G/邊緣領域的全方位IT解決方案制造商,宣布推出其最新產品組合,加速生成式AI部署。Supermicro
SuperCluster解決方案能為目前及未來大型語言模型(Large Language
Model,LLM)硬件基礎設施提供核心建構組件。
Supermicro三款強大的SuperCluster解決方案現已上市并可被用于生成式AI工作運行。這些解決方案內的4U液冷系統(tǒng)或8U氣冷系統(tǒng)是專為強大LLM訓練性能以及高度批次大小且大量的LLM推理所設計。配備了1U氣冷Supermicro
NVIDIA
MGXTM系統(tǒng)的第三款SuperCluster超級集群則針對云端級推理進行了優(yōu)化。
Supermicro總裁兼首席執(zhí)行官梁見后(Charles
Liang)表示:"在AI時代,算力以集群來衡量,不再只用服務器數量作為依據。我們的全球制造產能已擴大到每月5,000臺機柜,能比以往更快地為客戶提供完整生成式AI計算集群。只需通過我們采用400Gb/s
NVIDIA Quantum-2 InfiniBand和Spectrum-X
Ethernet網絡技術的數個可擴充型集群建構組件,一個64節(jié)點的計算集群能支持具有72TB HBM3e的512個NVIDIA HGX H200
GPU。結合了NVIDIA AI Enterprise軟件的Supermicro
SuperCluster解決方案非常適合用于針對現今企業(yè)與云端基礎架構的LLM訓練,且最高可達兆級參數。互連的GPU、CPU、內存、儲存、以及網絡硬件在被部署至機柜內的多個節(jié)點后形成現今AI技術的基礎。Supermicro的SuperCluster解決方案為快速發(fā)展的生成式AI與LLM提供了核心建構組件。"
NVIDIA
GPU產品管理副總裁Kaustubh
Sanghani表示:"NVIDIA最新型GPU、CPU、網絡與軟件技術助力能讓系統(tǒng)制造者為全球市場內不同類型的下一代AI工作運行實現加速。通過結合基于Blackwell架構產品的NVIDIA加速計算平臺,Supermicro能提供客戶所需要的前沿服務器系統(tǒng),且這些系統(tǒng)可容易地被部署至數據中心。"
Supermicro
4U NVIDIA HGX H100/H200
8-GPU系統(tǒng)通過液冷技術使8U氣冷系統(tǒng)計算密度加倍,同時降低功耗量與總體擁有成本(TCO)。這些系統(tǒng)旨在為了支持下一代NVIDIA的Blackwell架構GPU。Supermicro冷卻分配單元(Cooling
Distribution Unit,CDU)與冷卻分配分流管(Cooling Distribution
Manifold,CDM)是主要冷卻液流動脈絡,可將冷卻液輸送至Supermicro定制的直達芯片(Direct-to-Chip,D2C)冷板,使GPU和CPU處于最佳運行溫度,進而實現效能最大化。此散熱技術可使一整座數據中心電力成本降低最多40%,同時節(jié)省數據中心占地空間。
搭載NVIDIA
HGX H100/H200 8-GPU的系統(tǒng)非常適合用于訓練生成式Al。通過NVIDIA?
NVLink?技術高速互連的GPU,以及高GPU內存帶寬與容量,將成為符合成本效益地運行LLM的核心關鍵。Supermicro的SuperCluster具備龐大GPU共享資源,能作為一個AI超級計算機進行計算作業(yè)。
無論是導入一個最初就以數兆級詞元(token)數據集進行完整訓練的大型基礎模型,或開發(fā)一個云端級LLM推理基礎架構,具有無阻式400Gb/s網絡結構的脊葉網絡拓撲(Spine
and Leaf Network
Topology)都能從32個計算節(jié)點順暢地擴展至數千個節(jié)點。針對完全整合的液冷系統(tǒng),Supermicro在產品出廠前會憑借經認證的測試流程徹底驗證與確保系統(tǒng)運行有效性與效率。
采用了NVIDIA
GH200 Grace Hopper Superchip的Supermicro NVIDIA
MGX?系統(tǒng)設計將能打造出未來AI計算集群的架構樣式以解決生成式AI的關鍵瓶頸:運行高推理批次大小的LLM所需的GPU內存帶寬及容量,進而降低運營成本。具有256節(jié)點的計算集群能實現云端級大量推理算力引擎,并易于部署與擴充。
配置4U液冷系統(tǒng)的5組機柜或8U氣冷系統(tǒng)的9組機柜型SuperCluster
?
單一可擴充單元含256個NVIDIA H100/H200 Tensor Core GPU
?
液冷技術可支持512個GPU、64個節(jié)點,而其體積空間等同于搭載256個 GPU的氣冷式32節(jié)點解決方案
? 單一可擴充單元含具有20TB
HBM3的NVIDIA H100或具有36TB HBM3e的NVIDIA H200
? 一對一網絡傳輸結構可為每個GPU提供最高400
Gbps帶寬,并支持 GPUDirect RDMA與GPUDirect Storage技術,實現最高兆級參數的LLM訓練
? 400G
InfiniBand或400GbE Ethernet網絡交換器結構采用高度可擴充型脊葉網絡拓撲技術,包括NVIDIA Quantum-2
InfiniBand和NVIDIA Spectrum-X Ethernet網絡平臺
?
可定制化AI數據管道儲存結構具有業(yè)界領先的平行文件系統(tǒng)選項技術
? 搭載NVIDIA AI Enterprise
5.0軟件,可支持可加速大規(guī)模AI 模型部署的新型NVIDIA NIM推理微服務
配置1U氣冷NVIDIA
MGX系統(tǒng)的9組機柜型SuperCluster
? 單一可擴充單元含256個GH200 Grace Hopper
Superchips
? 最高可達144GB HBM3e加480GB
LPDDR5X的統(tǒng)一內存,適用于云端級、大量、低延遲和高批次推理,并能在單一計算節(jié)點中容納超過700億個參數規(guī)模的模型
? 400G
InfiniBand或400GbE Ethernet網絡交換器結構采用了高度可擴充型脊葉網絡拓撲技術
? 每節(jié)點最多含8個內建E1.S
NVMe儲存裝置
? 可定制化AI數據管道儲存結構搭配NVIDIA BlueField?-3
DPU與領先業(yè)界的平行文件系統(tǒng)選項,能為每個GPU提供高傳輸量、低延遲的儲存裝置存取
? NVIDIA AI Enterprise
5.0軟件
