最新MLPerf 3.0測(cè)試結(jié)果出爐！國產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒

2023-04-12 來源：半導(dǎo)體芯聞

2677

據(jù)福布斯報(bào)道，全球機(jī)器學(xué)習(xí)工程聯(lián)盟MLCommons基于權(quán)威AI基準(zhǔn)評(píng)測(cè)MLPerf 3.0發(fā)布最新測(cè)試結(jié)果，美國人工智能訓(xùn)練芯片巨頭英偉達(dá)又一次在性能對(duì)比中超越競(jìng)爭(zhēng)對(duì)手。

英偉達(dá)及其合作伙伴在MLPerf 3.0中運(yùn)行并提交了基準(zhǔn)測(cè)試，包括圖像分類、對(duì)象檢測(cè)、推薦、語音識(shí)別、NLP（自然語言處理）和3D分割。英偉達(dá)指出，許多客戶需要一個(gè)多功能的AI（人工智能）平臺(tái)，該平臺(tái)主要適用于數(shù)據(jù)中心環(huán)境，許多像圖像分類或檢測(cè)的邊緣AI應(yīng)用僅使用一種或兩種AI模型。

這一輪MLPerf的新測(cè)試成員分別是致力于邊緣圖像分類和數(shù)據(jù)中心的美國機(jī)器學(xué)習(xí)初創(chuàng)公司SiMa.ai和美國AI解決方案提供創(chuàng)企Neuchips。

MLCommons每6個(gè)月發(fā)布新一輪人工智能推理處理基準(zhǔn)測(cè)試。

在最新一期的幫當(dāng)中，有 25 個(gè)組織提交了測(cè)試，高于去年秋季的 21 個(gè)和去年春季的 19 個(gè)。英特爾展示了早期基于 Sapphire Rapids 的系統(tǒng)，高通的 Cloud AI 100 表現(xiàn)出色，尤其是在功耗指標(biāo)方面。新加入的參與者包括 CTuning、廣達(dá)云科技、SiMa 和 xFusion。

同樣值得注意的是在本周的新聞/分析師預(yù)簡(jiǎn)報(bào)會(huì)上圍繞生成式 AI 的討論——是的，更多關(guān)于 ChatGPT 的議論紛紛。MLPerf 應(yīng)該如何涉足生成式 AI 領(lǐng)域？BERT Large 是 LLM 的良好代理嗎？MLCommons執(zhí)行董事 David Kanter 表示，大型語言模型 (LLM) 將很快添加到 MLPerf 基準(zhǔn)測(cè)試套件中。

目前，BERT（來自transformers的雙向編碼器表示）是 MLPerf 使用的 NLP 模型。生成式人工智能應(yīng)用程序的預(yù)期激增——想想ChatGPT和DALL?E 2的目標(biāo)版本 ——可能會(huì)導(dǎo)致對(duì)推理基礎(chǔ)設(shè)施的需求激增。

有趣的是，有一些共識(shí)認(rèn)為 BERT 可以作為大型 LLM 的早期代理，即使它的規(guī)模要小得多（GPT3 有 1750 億個(gè)參數(shù)，BERT large 有大約 3 億個(gè)參數(shù)）。

Nvidia 仍然閃耀光芒

Nvidia 在廣泛的加速器市場(chǎng)仍然占據(jù)主導(dǎo)地位，并展示了其新的 H100 GPU 以及剛剛推出的 L4（T4 的替代品）的性能。

Nvidia 人工智能、基準(zhǔn)測(cè)試和云主管 David Salvator 提供了一個(gè)很好的頂線總結(jié)，“我們?cè)诙潭塘鶄€(gè)月內(nèi)看到了一些驚人的性能提升，與我們六個(gè)月前的第一次提交相比高達(dá) 54%。這證明了我們圍繞軟件創(chuàng)新正在進(jìn)行的工作。通常，在我們?cè)诋a(chǎn)品生命周期過程中構(gòu)建的任何給定一代產(chǎn)品中，我們將從軟件優(yōu)化和我們的庫、我們的驅(qū)動(dòng)程序的持續(xù)調(diào)整中獲得另外 2 倍的性能。

“我們剛剛在 GTC 上推出的 L4 產(chǎn)品首次出現(xiàn)在 MLPerf 中，與我們的上一代產(chǎn)品相比，其結(jié)果提高了 3 倍以上。第三個(gè)興趣點(diǎn)是我們的Jetson Orin平臺(tái)也有了長足的進(jìn)步。這不是它第一次出現(xiàn)在 MLPerf 中，但通過在平臺(tái)級(jí)別結(jié)合軟件和一些功率調(diào)整，我們已經(jīng)能夠在效率方面將性能和效率提高多達(dá) 57%，”他說。

Salvator 將軟件改進(jìn)歸功于 H100 Transformer Engine（使用混合精度格式的庫）。他還引用了非最大內(nèi)核在對(duì)象檢測(cè)推理中的使用。如下面的幻燈片所示，邊界框通常用于幫助識(shí)別對(duì)象?！盀榱藦氐?，這些邊界框通常以重疊的方式完成，但是 [如圖所示] 在幻燈片的右側(cè)（下圖），通過優(yōu)化這些內(nèi)核，我們能夠在 3D U-Net 和 ResNet-50 中看到一些不錯(cuò)的性能提升，”他說。

英特爾Sapphire Rapids異軍突起

在上一次的 MLPerf Inference 練習(xí)中，英特爾在預(yù)覽類別中提交了預(yù)覽類別，這是針對(duì)預(yù)計(jì)在六個(gè)月內(nèi)推出的產(chǎn)品。這一輪，英特爾在單節(jié)點(diǎn)系統(tǒng) (1-node-2S-SPR-PyTorch-INT8) 的封閉數(shù)據(jù)中心提交了兩個(gè) CPU（英特爾至強(qiáng)鉑金 8480+）。在過去的幾年中，圍繞通用 CPU 可能足以滿足某些推理工作負(fù)載的概念進(jìn)行了大量討論，通常是在推理是偶爾需要而不是專用或主要需求的情況下。

最新的英特爾提交，雖然跟不上基于加速器的系統(tǒng)，但能夠運(yùn)行工作負(fù)載并顯示出比上一個(gè) MLPerf 有所改進(jìn)。

“借助第四代至強(qiáng)可擴(kuò)展處理器，之前代號(hào)為 Sapphire Rapids，我們實(shí)際上在我們的產(chǎn)品中擁有一個(gè)名為AMX（高級(jí)矩陣指令）的新加速器。最后一次提交實(shí)際上是我們剛剛啟用了 Amex。因此，為了建立 Nvidia 的觀點(diǎn)（關(guān)于通過軟件實(shí)現(xiàn)性能改進(jìn)），現(xiàn)在我們實(shí)際上正在調(diào)整它并改進(jìn)軟件，”Plawner 說。

“我們看到所有型號(hào)的性能在短短幾個(gè)月內(nèi)全面提高了 1.2 倍到 1.4 倍。[我們] 從僅僅啟用 AMX（這對(duì)我們來說也是 CPU 內(nèi)核中的一種新加速器）到有機(jī)會(huì)調(diào)整軟件。與之前的評(píng)論類似，我們預(yù)計(jì)在當(dāng)前這一代中可能會(huì)達(dá)到 2 倍左右，僅通過軟件和改進(jìn)即可。在英特爾，我們都喜歡摩爾定律，但唯一比摩爾定律更好的是，隨著時(shí)間的推移，軟件可以在同一個(gè)芯片內(nèi)為您提供什么，”他說。

在這里值得一提的是，競(jìng)爭(zhēng)供應(yīng)商遵守 MLPerf 的規(guī)定，即在其整體媒體/分析師簡(jiǎn)報(bào)會(huì)上發(fā)表評(píng)論不能直接將一種產(chǎn)品與競(jìng)爭(zhēng)對(duì)手的產(chǎn)品進(jìn)行比較。這令人耳目一新，也很有用。如前所述，確實(shí)有必要深入研究結(jié)果數(shù)據(jù)并將相似/相似的系統(tǒng)（硬件、軟件和新網(wǎng)絡(luò)測(cè)試沒有網(wǎng)絡(luò)）與類似系統(tǒng)進(jìn)行比較。

許多供應(yīng)商還發(fā)布博客宣傳他們的結(jié)果并進(jìn)行競(jìng)爭(zhēng)比較。

高通顯示穩(wěn)步增長

高通對(duì) MLPerf 練習(xí)并不陌生，其 Cloud AI 100 加速器一直表現(xiàn)最佳，展示了低延遲和出色的能效。該公司報(bào)告稱，其 MLPerf v3.0 推理結(jié)果超過了之前所有類別的峰值離線性能、能效和更低延遲的所有記錄。

“配備 18 個(gè) Qualcomm Cloud AI 100 Pro（75W TDP）加速器的 2U 數(shù)據(jù)中心服務(wù)器平臺(tái)實(shí)現(xiàn)了每秒 430K+ 推理的 ResNet-50 離線峰值性能，并實(shí)現(xiàn)了 241 推理/秒/瓦的能效。Qualcomm Cloud AI 100 RetinaNet Network 跨所有平臺(tái)的離線性能優(yōu)化了約 40-80%，服務(wù)器性能優(yōu)化了高達(dá) 110%，”Qualcomm 表示。

“自首次提交 MLPerf 1.0 以來，Qualcomm Cloud AI 100 性能提升高達(dá) 86%，能效提升高達(dá) 52%。這些改進(jìn)是通過軟件優(yōu)化實(shí)現(xiàn)的，例如 AI 編譯器、DCVS 算法和內(nèi)存使用方面的改進(jìn)。這凸顯了過去幾年的持續(xù)努力和投資，”該公司表示。

VMware 展示了其與戴爾和 Nvidia 合作虛擬化 Nvidia Hopper 系統(tǒng)的性能?！拔覀儗?shí)現(xiàn)了 205% 裸機(jī)性能的 94%。值得注意的是，在 128 個(gè)邏輯 CPU 內(nèi)核中，我們只使用了 16 個(gè) CPU 內(nèi)核。所有剩余的 112 個(gè) CPU 代碼應(yīng)該在您的數(shù)據(jù)中心可用于其他工作負(fù)載，而不會(huì)影響運(yùn)行推理工作負(fù)載的機(jī)器的性能。這就是虛擬化的力量，”VMware 高級(jí)工程師 Uday Kurkure 說。文末VMware的補(bǔ)充聲明中展示了幾個(gè)結(jié)果圖表。

英偉達(dá)江湖地位穩(wěn)固，國產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒

總的來看，英偉達(dá)繼續(xù)穩(wěn)定發(fā)揮，霸榜MLPerf推理基準(zhǔn)測(cè)試，是毫無爭(zhēng)議的大贏家。雖說部分單點(diǎn)性能成績(jī)被其他競(jìng)品趕超，但若論通用性，英偉達(dá)A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。

目前英偉達(dá)還沒有提交H100的推理能效測(cè)試數(shù)據(jù)，以及其在訓(xùn)練方面的性能表現(xiàn)，等這些成績(jī)出來，H100預(yù)計(jì)會(huì)風(fēng)頭更盛。

國產(chǎn)AI芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測(cè)試后，壁仞科技、墨芯也分別通過第三方權(quán)威AI基準(zhǔn)測(cè)試平臺(tái)展示出其AI芯片的實(shí)測(cè)性能實(shí)力。

從這次開放優(yōu)化類榜單展示的性能成績(jī)，我們看到稀疏性計(jì)算已經(jīng)成數(shù)據(jù)中心AI推理的一個(gè)熱門趨勢(shì)，我們期待接下來這類具有創(chuàng)新力的技術(shù)能進(jìn)入固定任務(wù)榜單，通過更精細(xì)、更公平地比較系統(tǒng)實(shí)力，進(jìn)一步驗(yàn)證其落地價(jià)值。

隨著參評(píng)機(jī)構(gòu)、系統(tǒng)規(guī)模、系統(tǒng)配置的增加和走向多元化，MLPerf基準(zhǔn)測(cè)試正變得越來越復(fù)雜。這些歷屆的榜單結(jié)果，也能反映出全球AI芯片的技術(shù)及產(chǎn)業(yè)格局之變遷。