国产成人无线视频不卡二_区二区三区在线 | 欧洲_国产精品午夜福利在线观看地址_亚洲AV激情无码专区在线播放

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

最新MLPerf 3.0測(cè)試結(jié)果出爐!國產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒

2023-04-12 來源:半導(dǎo)體芯聞
2677

關(guān)鍵詞: AI 人工智能 英特爾

據(jù)福布斯報(bào)道,全球機(jī)器學(xué)習(xí)工程聯(lián)盟MLCommons基于權(quán)威AI基準(zhǔn)評(píng)測(cè)MLPerf 3.0發(fā)布最新測(cè)試結(jié)果,美國人工智能訓(xùn)練芯片巨頭英偉達(dá)又一次在性能對(duì)比中超越競(jìng)爭(zhēng)對(duì)手。

英偉達(dá)及其合作伙伴在MLPerf 3.0中運(yùn)行并提交了基準(zhǔn)測(cè)試,包括圖像分類、對(duì)象檢測(cè)、推薦、語音識(shí)別、NLP(自然語言處理)和3D分割。英偉達(dá)指出,許多客戶需要一個(gè)多功能的AI(人工智能)平臺(tái),該平臺(tái)主要適用于數(shù)據(jù)中心環(huán)境,許多像圖像分類或檢測(cè)的邊緣AI應(yīng)用僅使用一種或兩種AI模型。

這一輪MLPerf的新測(cè)試成員分別是致力于邊緣圖像分類和數(shù)據(jù)中心的美國機(jī)器學(xué)習(xí)初創(chuàng)公司SiMa.ai和美國AI解決方案提供創(chuàng)企Neuchips。



MLCommons每6個(gè)月發(fā)布新一輪人工智能推理處理基準(zhǔn)測(cè)試。

在最新一期的幫當(dāng)中,有 25 個(gè)組織提交了測(cè)試,高于去年秋季的 21 個(gè)和去年春季的 19 個(gè)。英特爾展示了早期基于 Sapphire Rapids 的系統(tǒng),高通的 Cloud AI 100 表現(xiàn)出色,尤其是在功耗指標(biāo)方面。新加入的參與者包括 CTuning、廣達(dá)云科技、SiMa 和 xFusion。

同樣值得注意的是在本周的新聞/分析師預(yù)簡(jiǎn)報(bào)會(huì)上圍繞生成式 AI 的討論——是的,更多關(guān)于 ChatGPT 的議論紛紛。MLPerf 應(yīng)該如何涉足生成式 AI 領(lǐng)域?BERT Large 是 LLM 的良好代理嗎?MLCommons執(zhí)行董事 David Kanter 表示,大型語言模型 (LLM) 將很快添加到 MLPerf 基準(zhǔn)測(cè)試套件中。

目前,BERT(來自transformers的雙向編碼器表示)是 MLPerf 使用的 NLP 模型。生成式人工智能應(yīng)用程序的預(yù)期激增——想想ChatGPT和DALL?E 2的目標(biāo)版本 ——可能會(huì)導(dǎo)致對(duì)推理基礎(chǔ)設(shè)施的需求激增。

有趣的是,有一些共識(shí)認(rèn)為 BERT 可以作為大型 LLM 的早期代理,即使它的規(guī)模要小得多(GPT3 有 1750 億個(gè)參數(shù),BERT large 有大約 3 億個(gè)參數(shù))。


Nvidia 仍然閃耀光芒

Nvidia 在廣泛的加速器市場(chǎng)仍然占據(jù)主導(dǎo)地位,并展示了其新的 H100 GPU 以及剛剛推出的 L4(T4 的替代品)的性能。

Nvidia 人工智能、基準(zhǔn)測(cè)試和云主管 David Salvator 提供了一個(gè)很好的頂線總結(jié),“我們?cè)诙潭塘鶄€(gè)月內(nèi)看到了一些驚人的性能提升,與我們六個(gè)月前的第一次提交相比高達(dá) 54%。這證明了我們圍繞軟件創(chuàng)新正在進(jìn)行的工作。通常,在我們?cè)诋a(chǎn)品生命周期過程中構(gòu)建的任何給定一代產(chǎn)品中,我們將從軟件優(yōu)化和我們的庫、我們的驅(qū)動(dòng)程序的持續(xù)調(diào)整中獲得另外 2 倍的性能。

“我們剛剛在 GTC 上推出的 L4 產(chǎn)品首次出現(xiàn)在 MLPerf 中,與我們的上一代產(chǎn)品相比,其結(jié)果提高了 3 倍以上。第三個(gè)興趣點(diǎn)是我們的Jetson Orin平臺(tái)也有了長足的進(jìn)步。這不是它第一次出現(xiàn)在 MLPerf 中,但通過在平臺(tái)級(jí)別結(jié)合軟件和一些功率調(diào)整,我們已經(jīng)能夠在效率方面將性能和效率提高多達(dá) 57%,”他說。

Salvator 將軟件改進(jìn)歸功于 H100 Transformer Engine(使用混合精度格式的庫)。他還引用了非最大內(nèi)核在對(duì)象檢測(cè)推理中的使用。如下面的幻燈片所示,邊界框通常用于幫助識(shí)別對(duì)象?!盀榱藦氐?,這些邊界框通常以重疊的方式完成,但是 [如圖所示] 在幻燈片的右側(cè)(下圖),通過優(yōu)化這些內(nèi)核,我們能夠在 3D U-Net 和 ResNet-50 中看到一些不錯(cuò)的性能提升,”他說。


英特爾Sapphire Rapids異軍突起

在上一次的 MLPerf Inference 練習(xí)中,英特爾在預(yù)覽類別中提交了預(yù)覽類別,這是針對(duì)預(yù)計(jì)在六個(gè)月內(nèi)推出的產(chǎn)品。這一輪,英特爾在單節(jié)點(diǎn)系統(tǒng) (1-node-2S-SPR-PyTorch-INT8) 的封閉數(shù)據(jù)中心提交了兩個(gè) CPU(英特爾至強(qiáng)鉑金 8480+)。在過去的幾年中,圍繞通用 CPU 可能足以滿足某些推理工作負(fù)載的概念進(jìn)行了大量討論,通常是在推理是偶爾需要而不是專用或主要需求的情況下。

最新的英特爾提交,雖然跟不上基于加速器的系統(tǒng),但能夠運(yùn)行工作負(fù)載并顯示出比上一個(gè) MLPerf 有所改進(jìn)。

“借助第四代至強(qiáng)可擴(kuò)展處理器,之前代號(hào)為 Sapphire Rapids,我們實(shí)際上在我們的產(chǎn)品中擁有一個(gè)名為AMX(高級(jí)矩陣指令)的新加速器。最后一次提交實(shí)際上是我們剛剛啟用了 Amex。因此,為了建立 Nvidia 的觀點(diǎn)(關(guān)于通過軟件實(shí)現(xiàn)性能改進(jìn)),現(xiàn)在我們實(shí)際上正在調(diào)整它并改進(jìn)軟件,”Plawner 說。

“我們看到所有型號(hào)的性能在短短幾個(gè)月內(nèi)全面提高了 1.2 倍到 1.4 倍。[我們] 從僅僅啟用 AMX(這對(duì)我們來說也是 CPU 內(nèi)核中的一種新加速器)到有機(jī)會(huì)調(diào)整軟件。與之前的評(píng)論類似,我們預(yù)計(jì)在當(dāng)前這一代中可能會(huì)達(dá)到 2 倍左右,僅通過軟件和改進(jìn)即可。在英特爾,我們都喜歡摩爾定律,但唯一比摩爾定律更好的是,隨著時(shí)間的推移,軟件可以在同一個(gè)芯片內(nèi)為您提供什么,”他說。

在這里值得一提的是,競(jìng)爭(zhēng)供應(yīng)商遵守 MLPerf 的規(guī)定,即在其整體媒體/分析師簡(jiǎn)報(bào)會(huì)上發(fā)表評(píng)論不能直接將一種產(chǎn)品與競(jìng)爭(zhēng)對(duì)手的產(chǎn)品進(jìn)行比較。這令人耳目一新,也很有用。如前所述,確實(shí)有必要深入研究結(jié)果數(shù)據(jù)并將相似/相似的系統(tǒng)(硬件、軟件和新網(wǎng)絡(luò)測(cè)試沒有網(wǎng)絡(luò))與類似系統(tǒng)進(jìn)行比較。

許多供應(yīng)商還發(fā)布博客宣傳他們的結(jié)果并進(jìn)行競(jìng)爭(zhēng)比較。



高通顯示穩(wěn)步增長

高通對(duì) MLPerf 練習(xí)并不陌生,其 Cloud AI 100 加速器一直表現(xiàn)最佳,展示了低延遲和出色的能效。該公司報(bào)告稱,其 MLPerf v3.0 推理結(jié)果超過了之前所有類別的峰值離線性能、能效和更低延遲的所有記錄。

“配備 18 個(gè) Qualcomm Cloud AI 100 Pro(75W TDP)加速器的 2U 數(shù)據(jù)中心服務(wù)器平臺(tái)實(shí)現(xiàn)了每秒 430K+ 推理的 ResNet-50 離線峰值性能,并實(shí)現(xiàn)了 241 推理/秒/瓦的能效。Qualcomm Cloud AI 100 RetinaNet Network 跨所有平臺(tái)的離線性能優(yōu)化了約 40-80%,服務(wù)器性能優(yōu)化了高達(dá) 110%,”Qualcomm 表示。

“自首次提交 MLPerf 1.0 以來,Qualcomm Cloud AI 100 性能提升高達(dá) 86%,能效提升高達(dá) 52%。這些改進(jìn)是通過軟件優(yōu)化實(shí)現(xiàn)的,例如 AI 編譯器、DCVS 算法和內(nèi)存使用方面的改進(jìn)。這凸顯了過去幾年的持續(xù)努力和投資,”該公司表示。

VMware 展示了其與戴爾和 Nvidia 合作虛擬化 Nvidia Hopper 系統(tǒng)的性能?!拔覀儗?shí)現(xiàn)了 205% 裸機(jī)性能的 94%。值得注意的是,在 128 個(gè)邏輯 CPU 內(nèi)核中,我們只使用了 16 個(gè) CPU 內(nèi)核。所有剩余的 112 個(gè) CPU 代碼應(yīng)該在您的數(shù)據(jù)中心可用于其他工作負(fù)載,而不會(huì)影響運(yùn)行推理工作負(fù)載的機(jī)器的性能。這就是虛擬化的力量,”VMware 高級(jí)工程師 Uday Kurkure 說。文末VMware的補(bǔ)充聲明中展示了幾個(gè)結(jié)果圖表。


英偉達(dá)江湖地位穩(wěn)固,國產(chǎn)AI芯片新勢(shì)力發(fā)起沖鋒

總的來看,英偉達(dá)繼續(xù)穩(wěn)定發(fā)揮,霸榜MLPerf推理基準(zhǔn)測(cè)試,是毫無爭(zhēng)議的大贏家。雖說部分單點(diǎn)性能成績(jī)被其他競(jìng)品趕超,但若論通用性,英偉達(dá)A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。

目前英偉達(dá)還沒有提交H100的推理能效測(cè)試數(shù)據(jù),以及其在訓(xùn)練方面的性能表現(xiàn),等這些成績(jī)出來,H100預(yù)計(jì)會(huì)風(fēng)頭更盛。

國產(chǎn)AI芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測(cè)試后,壁仞科技、墨芯也分別通過第三方權(quán)威AI基準(zhǔn)測(cè)試平臺(tái)展示出其AI芯片的實(shí)測(cè)性能實(shí)力。

從這次開放優(yōu)化類榜單展示的性能成績(jī),我們看到稀疏性計(jì)算已經(jīng)成數(shù)據(jù)中心AI推理的一個(gè)熱門趨勢(shì),我們期待接下來這類具有創(chuàng)新力的技術(shù)能進(jìn)入固定任務(wù)榜單,通過更精細(xì)、更公平地比較系統(tǒng)實(shí)力,進(jìn)一步驗(yàn)證其落地價(jià)值。

隨著參評(píng)機(jī)構(gòu)、系統(tǒng)規(guī)模、系統(tǒng)配置的增加和走向多元化,MLPerf基準(zhǔn)測(cè)試正變得越來越復(fù)雜。這些歷屆的榜單結(jié)果,也能反映出全球AI芯片的技術(shù)及產(chǎn)業(yè)格局之變遷。



毛片tv网站无套内射tv网站| 国产香蕉97碰碰视频va碰碰看| 未满十八18禁止免费无码网站| 国产精品亚洲专区无码唯爱网 | 美女视频黄频a免费| 日本高清va在线播放| a级毛片免费观看在线| 超碰国产精品久久国产精品99 | 国产成人无码区免费网站| 久久久亚洲av成人网站 | 欧美裸体xxxx极品少妇| 精品无码久久久久久久动漫| 中文字幕乱码人妻一区二区三区| 中文字幕亚洲精品无码| 一本无码人妻在中文字幕免费| 亚洲综合av一区二区三区| 极品少妇高潮到爽| 欧美极品少妇无套实战| 国产成人精品久久亚洲高清不卡| 欧美性videos高清精品| 97精品国产手机| 日韩加勒比一本无码精品| 免费精品无码av片在线观看| 免费视频爱爱太爽了| 国产av人人夜夜澡人人爽| 波多野结衣av手机在线观看| 麻豆一区二区99久久久久| 丰满五十路熟女正在播放| 久久99久久99精品免观看| 少妇高潮一区二区三区99| 欧美熟妇另类久久久久久多毛 | 人妻熟妇乱又伦精品hd| 中文在线中文资源| 少妇一边呻吟一边说使劲视频| 久久久久久国产精品免费免费| 免费无遮挡无码视频网站| 熟妇的荡欲色综合亚洲| 女女互揉吃奶揉到高潮视频| 免费无码又爽又刺激网站直播 | 少妇高潮喷潮久久久影院| 国产欧美高清在线观看|