国产成人无线视频不卡二_区二区三区在线 | 欧洲_国产精品午夜福利在线观看地址_亚洲AV激情无码专区在线播放

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

摩爾線程五大硬核實(shí)力打造“AI工廠”,為大模型訓(xùn)練提速

2025-07-30 來源:愛集微 原創(chuàng)文章
476

關(guān)鍵詞: AI工廠 摩爾線程 GPU 算力 核心技術(shù)

世界人工智能大會(huì)(WAIC 2025)前夕,摩爾線程以“算力進(jìn)化,精度革命”為主題舉辦技術(shù)分享會(huì),創(chuàng)新性提出“AI工廠”理念,旨在破局生成式AI爆發(fā)的大模型生產(chǎn)效率。

這意味著作為國內(nèi)領(lǐng)先的GPU廠商,摩爾線程從底層芯片架構(gòu)創(chuàng)新的單點(diǎn)性技術(shù)創(chuàng)新,向集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級(jí),也是應(yīng)對(duì)AI時(shí)代發(fā)展,模型參數(shù),算力需求進(jìn)一步挑戰(zhàn)的主動(dòng)布局。這種全方位的基礎(chǔ)設(shè)施變革,將推動(dòng)AI訓(xùn)練從千卡級(jí)向萬卡級(jí)乃至十萬卡級(jí)規(guī)模演進(jìn),以系統(tǒng)級(jí)工程實(shí)現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。

會(huì)上,摩爾線程CEO張建中圍繞“AI工廠”理念,以及摩爾線程在打造AI工廠方面的五大核心能力做了詳細(xì)介紹。

整體而言,在摩爾線程定義的以智能作為“產(chǎn)能”的“AI工廠”中,生產(chǎn)效率由五大核心要素決定成功與否:AI工廠生產(chǎn)效率=加速計(jì)算通用性*單芯片有效算力*單節(jié)點(diǎn)效率*集群效率*集群穩(wěn)定性,每一個(gè)環(huán)節(jié)都要求做到極致。

核心技術(shù)一:全功能全精度,實(shí)現(xiàn)加速計(jì)算通用性

加速計(jì)算芯片本身的強(qiáng)大通用性,是打造“AI工廠”的核心基石。

這要求單芯片能夠覆蓋多場(chǎng)景,才能支持多樣化的模型訓(xùn)練。而這也是摩爾線程從成立之初以來的產(chǎn)品定位“全功能GPU”,在創(chuàng)新MUSA架構(gòu)的支持下,摩爾線程單GPU芯片可以同時(shí)支持AI計(jì)算加速、圖形渲染、是物理仿真和科學(xué)計(jì)算、超高清視頻編解碼的技術(shù)能力。

此外,精度完整性也是衡量全功能GPU通用計(jì)算能力的核心指標(biāo)。在計(jì)算精度方面,其支持從FP64至INT8的完整精度譜系,是國內(nèi)極少數(shù)具備FP8大模型訓(xùn)練平臺(tái)的廠商,通過FP8混合精度技術(shù),有效提升訓(xùn)推一體能力,在主流前沿大模型訓(xùn)練中實(shí)現(xiàn)20%~30%的性能躍升。

核心技術(shù)二:自研MUSA架構(gòu),提升芯片有效算力

強(qiáng)大的芯片有效算力是作為“AI工廠”的核心競(jìng)爭(zhēng)力。而作為GPU的 “靈魂”,創(chuàng)新的架構(gòu)設(shè)計(jì)往往決定了GPU的計(jì)算能力、能效比、適用場(chǎng)景乃至技術(shù)上限。

摩爾線程自研的MUSA架構(gòu),從設(shè)計(jì)之初,便完整考慮到面向未來多樣計(jì)算場(chǎng)景的需求,通過多引擎可配置統(tǒng)一系統(tǒng)架構(gòu),實(shí)現(xiàn)一個(gè)架構(gòu)在不同領(lǐng)域的應(yīng)用,統(tǒng)一編程接口,并著力在計(jì)算、內(nèi)存、通信三個(gè)層面實(shí)現(xiàn)突破,顯著提升單GPU運(yùn)算效率。

計(jì)算、通信、存儲(chǔ)、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的一系列功能需求,要在頂層設(shè)計(jì)當(dāng)中完整地考慮進(jìn)去。

摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構(gòu),通過硬件資源池化及動(dòng)態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計(jì)算、內(nèi)存與通信資源池。這一設(shè)計(jì)不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時(shí)顯著提升了資源利用率。其參數(shù)化配置可伸縮架構(gòu)允許面向目標(biāo)市場(chǎng)快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。

這樣的架構(gòu)能便于開發(fā)者和用戶在底層直接調(diào)用相關(guān)引擎,將各種不同的硬件減速流水線pipeline起來,而所有結(jié)果共享一個(gè)內(nèi)存和資源池,這是最典型的數(shù)據(jù)驅(qū)動(dòng)、引擎支持和引擎計(jì)算的統(tǒng)一系統(tǒng)架構(gòu),可以讓工作效率更高。

在性能方面,AI加速系統(tǒng)如何讓性能發(fā)揮得更好,需要有功能定制的核心計(jì)算引擎。摩爾線程通過兩套自研的AI計(jì)算加速系統(tǒng):張量計(jì)算引擎(TCE)、張量訪存引擎(TME),實(shí)現(xiàn)對(duì)算、存環(huán)節(jié)的針對(duì)性管理和調(diào)度,更好地發(fā)揮效率。此外,為了使眾多工作、步驟、引擎保持同步不亂、有條不紊,摩爾線程自主設(shè)計(jì)了引擎異步流水(ATB)。可以把上述工作內(nèi)容Pipeline起來,且不需要等待。

在計(jì)算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。

摩爾線程透露,設(shè)計(jì)FP8的時(shí)候,摩爾線程研發(fā)團(tuán)隊(duì)特別設(shè)計(jì)了一個(gè)FP8的Transformer引擎,專門用于FP8的加速計(jì)算。Transformer引擎是摩爾線程平湖架構(gòu)(第四代GPU架構(gòu))中一個(gè)核心科技,從而帶來計(jì)算性能的顯著提升。

在通信能力方面,摩爾線程獨(dú)創(chuàng)ACE(異步通信引擎),減少了15%的計(jì)算資源損耗,MTLink2.0互聯(lián)技術(shù)提供了高出國內(nèi)行業(yè)平均水平60%的帶寬。在不同數(shù)據(jù)包的傳送上,Scale-Up效率可以最高提升30%,平均在15%以上。這些功能可以讓GPU之間不同的復(fù)雜拓?fù)浣Y(jié)構(gòu)不受計(jì)算環(huán)境的影響,可以實(shí)現(xiàn)卡間高效互聯(lián)通信。

在存儲(chǔ)方面,MUSA存儲(chǔ)子系統(tǒng)實(shí)現(xiàn)了多維度的升級(jí),通過多精度近存規(guī)約引擎、低延遲Scale-Up內(nèi)存順序模型、通算并行資源隔離等技術(shù),實(shí)現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。

核心技術(shù)三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點(diǎn)計(jì)算效率

對(duì)GPU而言,單節(jié)點(diǎn)計(jì)算效率不僅依賴硬件算力,更取決于軟件能否讓硬件 “跑滿”—— 避免算力閑置、數(shù)據(jù)傳輸阻塞、算子低效等問題。而MUSA全棧系統(tǒng)軟件的價(jià)值,正是通過全鏈路優(yōu)化,通過消除各環(huán)節(jié)的性能損耗、最大化硬件潛力,最終實(shí)現(xiàn)單節(jié)點(diǎn)效率的躍升。

主要包括幾點(diǎn)核心要素。

一是GPU驅(qū)動(dòng)任務(wù)調(diào)度優(yōu)化。Kernel Launch(核函數(shù)啟動(dòng))是GPU/加速器計(jì)算中的核心調(diào)度機(jī)制,是指將計(jì)算任務(wù)從CPU主機(jī)傳輸?shù)紾PU設(shè)備并執(zhí)行的過程,本質(zhì)是鏈接軟件指令與硬件算力的橋梁。傳統(tǒng)Kernel Lauch延遲較高,導(dǎo)致GPU在任務(wù)空間頻繁空閑,形成計(jì)算空洞。而GPU空閑時(shí),算力資源浪費(fèi),硬件利用率不足。

而摩爾線程的GPU驅(qū)動(dòng)任務(wù)調(diào)度優(yōu)化能夠使得Kernel Launch時(shí)間縮短50%。支持千次計(jì)算指令單次并行下發(fā)以及55%的延遲減少。

二是打造極致性能算子庫。GEMM算子算力利用率達(dá)98%,F(xiàn)lash Attention 算子算力利用率突破95%。

三是通信效能躍升。通過MCCL通信庫實(shí)現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計(jì)算通信并行,大模型訓(xùn)練集群整體性能提升10%。

四是低精度計(jì)算效率革新。實(shí)現(xiàn)對(duì)于FP8的計(jì)算性能優(yōu)化,大幅提升訓(xùn)練效能。FP8 GEMM利用率處于行業(yè)領(lǐng)先水平。此外,行業(yè)首創(chuàng)細(xì)粒度重計(jì)算,采用創(chuàng)新的Recompute高效算法,計(jì)算開銷減少4倍,可以使得訓(xùn)練精度能保持得更高,累計(jì)誤差更小。

五是開發(fā)生態(tài)完善。Triton-MUSA編譯器對(duì)于vLLM、SGLang等,已實(shí)現(xiàn)開源Triton算子100%覆蓋。FlagGems算子庫支持160+熱點(diǎn)算子,支持率超過90%。MCC自研編譯器支持torch compile,計(jì)算圖優(yōu)化加速比達(dá)1.5倍。MUTLASS高性能線性代數(shù)模板庫兼容支持CUTLASS/CuTe3.6.0。多精度支持TF32、FP16、BF16、INT8等主流AI計(jì)算。基于MUTLASS的GEMM性能可達(dá)muDNN手寫匯編性。

此外,為了服務(wù)廣大開發(fā)者,摩爾線程還打造了完整的軟件開發(fā)套件,對(duì)應(yīng)Torch Profiler,監(jiān)控、管理,performance tuning等一系列工具。同時(shí),摩爾線程也計(jì)劃開放很多套件給所有開發(fā)者,同時(shí)也愿意傾聽開發(fā)者的意見。值得一提的是,今年10月,摩爾線程將舉辦首屆MUSA開發(fā)者大會(huì)。

核心技術(shù)四:自研KUAE大規(guī)模集群,優(yōu)化集群效率

當(dāng)單節(jié)點(diǎn)效率達(dá)到新高度,如何實(shí)現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)??涠穑↘UAE)是摩爾線程自研的計(jì)算集群,其中包括一系列的計(jì)算集群、軟件平臺(tái)、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等流程。

在提升單節(jié)點(diǎn)計(jì)算效率的基礎(chǔ)上,摩爾線程自研KUAE計(jì)算集群通過5D大規(guī)模分布式并行計(jì)算技術(shù),實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作。

在性能仿真與優(yōu)化方面,自主研發(fā)的Simumax工具面向超大規(guī)模集群自動(dòng)搜索最優(yōu)并行策略,可以實(shí)現(xiàn)集群訓(xùn)練性能的最優(yōu)化。通過精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。

針對(duì)大模型穩(wěn)定性難題,摩爾線程通過創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級(jí)備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。

摩爾線程表示,夸娥(KUAE)的設(shè)計(jì)理念,首先要滿足應(yīng)用中的多方面要求,比如做并行處理,不光是做一個(gè)DP(數(shù)據(jù)并行)、PP(流水線并行)、EP(專家并行),幾乎所有不同的并行策略和方法都要支持,而且效率要做到最高。第二,秉持端到端的模型訓(xùn)練理念。模型訓(xùn)練之前數(shù)據(jù)要處理、預(yù)訓(xùn)練、后訓(xùn)練、模型評(píng)估等等,提供從數(shù)據(jù)處理到模型部署的一站式服務(wù)。

基于平湖架構(gòu)KUAE2智算集群,無論千卡或更大規(guī)模,摩爾線程正在提升其性能,并且MFU已達(dá)到行業(yè)領(lǐng)先水平。

核心技術(shù)五:零中斷容錯(cuò)技術(shù),提升集群的穩(wěn)定性和可靠性

摩爾線程提出的AI工廠方案:從單芯片算力、效率,再到單節(jié)點(diǎn)和集群效率,彼此之間是相乘的關(guān)系,只有每一個(gè)環(huán)節(jié)都做到極致,才能最大限度地發(fā)揮能力,而穩(wěn)定性和可靠性是決定集群最后成敗的關(guān)鍵。特別在萬卡級(jí)AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會(huì)嚴(yán)重浪費(fèi)算力。

而在提升集群穩(wěn)定性方面,摩爾線程創(chuàng)新推出零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開銷。

在可靠性方面,摩爾線程通過多維度訓(xùn)練洞察方案,實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷,解決訓(xùn)練中的慢節(jié)點(diǎn)致命短板,可以“看得見”每一片GPU從而實(shí)施精確管理,該方案使得慢節(jié)點(diǎn)、Hang等異常處理效率提升50%。

同時(shí),為保證集群在訓(xùn)練起步階段的成功率,摩爾線程的可靠性方案還結(jié)合了集群巡檢與起飛檢查,包含一系列自動(dòng)化工具使其自動(dòng)調(diào)度,優(yōu)化管理效率,使得訓(xùn)練成功率以及速度提高10%。

從訓(xùn)練到驗(yàn)證:構(gòu)建完整閉環(huán)

完善的“AI工廠”不僅需要高效訓(xùn)練大模型,還需具備推理驗(yàn)證能力,從而構(gòu)建起完整閉環(huán)。

在推理驗(yàn)證方面,摩爾線程開發(fā)了相應(yīng)工具方案,覆蓋LLM、視覺、生成類模型等全流程推理解決方案。

一是MT Transformer自研推理引擎,面向LLM實(shí)現(xiàn)極致優(yōu)化。二是TensorX自研推理引擎,面向生成類和視覺類。三是vLLM-MUSA,在NTT和DirectX不支持的情況下,用戶可以使用vLLM,vLLM-MUSA能夠達(dá)到推理引擎的最高性能的80%,可以讓很多用戶更快速地實(shí)現(xiàn)適配。

經(jīng)過測(cè)試,摩爾線程最新AI旗艦產(chǎn)品MTT S5000針對(duì)DeepSeek R1滿血版大語言模型的推理速度,達(dá)到100tokens/s,在同國際主流GPU和其他國產(chǎn)GPU的比較中,推理處于行業(yè)領(lǐng)先。

結(jié)語

此次摩爾線程技術(shù)分享會(huì)上呈現(xiàn)的,是以 AI 工廠為核心載體,成功搭建起貫穿 “訓(xùn)練 - 推理 - 部署” 全流程的高效體系,這不僅是其自身技術(shù)實(shí)力的體現(xiàn),更標(biāo)志著國產(chǎn)計(jì)算基礎(chǔ)設(shè)施在支撐 AGI 時(shí)代規(guī)?;⒏咝?、高可靠模型生產(chǎn)方面,邁出了關(guān)鍵且堅(jiān)實(shí)的一步。

從圖形渲染,到AI 算力引擎,摩爾線程的全功能 GPU 始終走在加速計(jì)算革新的前沿。以 “KUAE+MUSA” 構(gòu)建的智算業(yè)務(wù)核心為驅(qū)動(dòng)力,摩爾線程正不斷拓展其影響力,加速為千行百業(yè)注入 AI 動(dòng)能。未來,在物理仿真、AIGC、科學(xué)計(jì)算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關(guān)鍵領(lǐng)域,由全功能 GPU 驅(qū)動(dòng)的 AI 技術(shù)有望將在摩爾線程的推動(dòng)下,實(shí)現(xiàn)更廣泛的應(yīng)用與深度部署,為國產(chǎn)計(jì)算力量的崛起和 AI 產(chǎn)業(yè)的蓬勃發(fā)展書寫新的篇章。




日韩做a爰片久久毛片a片| 美女视频黄频大全免费| 强奷乱码中文字幕| 国产喷水福利在线视频| 韩国理伦片一区二区三区在线播放| 东北老女人高潮大叫对白| 欧美尺寸又黑又粗又长| 精品久久久久久成人av| 人妻中文字幕在线网站| 人人妻人人藻人人爽欧美一区| 色婷婷av99xx| 亚洲成av人片在线观看无码| 无码专区永久免费av网站| 欧美性受xxxx黑人xyx性爽| 午夜福利麻豆国产精品| 男女做爰猛烈啪啪吃奶动| 一本一道vs无码中文字幕| 久青草无码视频在线观看| 国产免国产免费| 无码专区人妻系列日韩精品少妇| √天堂中文官网8在线| 真人与拘做受免费视频一| 国产成人av无码永久免费一线天| 亚洲精品国产v片在线观看| 亚洲av之男人的天堂网站| 色www视频永久免费| 中文字幕日韩三级片| 欧洲成人一区二区三区| 天堂а√中文最新版地址在线 | 台湾无码一区二区| 中文字幕日本特黄aa毛片| 国产精品视频一区二区三区不卡 | 欧美日韩一区二区三区在线观看视频| 日本黄页网站免费大全| 少妇三级全黄| 亚洲精品乱码久久久久久蜜桃图片| 99久久伊人精品综合观看| 少妇又紧又色又爽又刺激视频 | 在线亚洲+欧美+日本专区| 妺妺窝人体色www在线小说| 国产成+人欧美+综合在线观看|