又一國產(chǎn)企業(yè)立志攻克GPU難題，造一塊自己的顯卡到底有多難？

2023-09-07 來源：賢集網(wǎng)

5231

近日，武漢市科技局下達(dá)2023年度重點(diǎn)研發(fā)計劃項(xiàng)目。攀升科技“基于國產(chǎn)GPU的顯卡研制及產(chǎn)業(yè)化”項(xiàng)目位列其中。項(xiàng)目落地后，將解決潛在“卡脖子”產(chǎn)品——“顯卡”的核心計算組件國產(chǎn)化難題。

2023年2月，中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》，明確要夯實(shí)數(shù)字中國建設(shè)基礎(chǔ)，并構(gòu)建自立自強(qiáng)的數(shù)字技術(shù)創(chuàng)新體系。今年以來，在ChatGPT快速迭代的浪潮下，神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等人工智能技術(shù)進(jìn)入井噴期，全球?qū)Τ笠?guī)模并行算力需求暴增，獨(dú)立顯卡作為AI算力核心基礎(chǔ)設(shè)施的重要性日益突出。

在GPU領(lǐng)域，我國一直缺少核心技術(shù)以及生產(chǎn)經(jīng)驗(yàn)，與國際水平差距較大。國產(chǎn)品牌急需突破和壯大，解決潛在“卡脖子”產(chǎn)品核心技術(shù)，實(shí)施國產(chǎn)品牌替代，共建“光芯屏端網(wǎng)”產(chǎn)業(yè)鏈。

攀升科技此次立項(xiàng)成功的“基于國產(chǎn)GPU的顯卡研制及產(chǎn)業(yè)化”項(xiàng)目，將解決各類計算“終端”的核心計算組件國產(chǎn)化問題，極大提升計算終端組件的國產(chǎn)化率；基于國家數(shù)字基礎(chǔ)建設(shè)和獨(dú)立自主技術(shù)創(chuàng)新的導(dǎo)向，向各領(lǐng)域提供所需的國產(chǎn)品牌顯卡產(chǎn)品，為武漢市和國家的數(shù)字基礎(chǔ)建設(shè)提供硬科技產(chǎn)品基礎(chǔ)，解決潛在“卡脖子”風(fēng)險。

本項(xiàng)目將實(shí)現(xiàn)從顯卡核心軟硬件設(shè)計、研發(fā)調(diào)試、生產(chǎn)制造到品控檢驗(yàn)等全流程的核心技術(shù)國產(chǎn)化和經(jīng)驗(yàn)積累，在諸如顯卡PCB集成電路、供電模組、散熱模組和顯存、供電管理等關(guān)鍵技術(shù)環(huán)節(jié)進(jìn)行創(chuàng)新和突破。

GPU研發(fā)技術(shù)壁壘極高

GPU的研發(fā)是一項(xiàng)大型的系統(tǒng)工程，包含硬件架構(gòu)、算法、軟件生態(tài)等多個組成，缺一不可，壁壘極高。CPU巨頭Intel近二十年多次嘗試征服高端GPU領(lǐng)域，曾在前兩年專門成立加速計算系統(tǒng)與圖形事業(yè)部（AXG），試圖再度殺入高端GPU市場，卻始終反響平平。甚至現(xiàn)在的GPU絕對霸主NVIDIA，從95年首款產(chǎn)品NV1正式誕生發(fā)展至今，也是在顯卡領(lǐng)域耕耘了20多年才有當(dāng)前的成績。足可見GPU產(chǎn)業(yè)的門檻之高。

在硬件上，國產(chǎn)最大的問題就是IP，任何一款高端芯片的打造都離不開IP。但是，GPU IP的自研開發(fā)需要3-5年的周期，需要數(shù)百個專業(yè)領(lǐng)域的工程師。因此短時間內(nèi)在硬件上實(shí)現(xiàn)完全國產(chǎn)化并不容易，國內(nèi)GPU廠商如芯動、摩爾線程等幾乎都是外購IP加上部分的自主研發(fā)。中天恒星剛發(fā)布的“天狼星”雖然實(shí)現(xiàn)了國產(chǎn)自主GPU架構(gòu)，100%IP屬于自主研發(fā)，但真正要完善軟件生態(tài)，穩(wěn)定商用，我想還需要很長的一段時間。

在軟件上，國產(chǎn)難題主要涉及驅(qū)動開發(fā)、算法及軟件生態(tài)。業(yè)內(nèi)人士指出，計算芯片最大的門檻其實(shí)不是硬件，而是軟件。目前業(yè)內(nèi)GPU特別是用于通用算力的GPGPU，主流的軟件架構(gòu)是英偉達(dá)的CUDA，此架構(gòu)在2006問世以來，與下游軟件、驅(qū)動廠家已經(jīng)有了深度合作。而且CUDA本身涵蓋了多個技術(shù)領(lǐng)域，其開發(fā)與后續(xù)更新都與英偉達(dá)自家GPU高度綁定，從某種角度來看，英偉達(dá)在GPU領(lǐng)域的壟斷很大程度上是通過CUDA平臺上的軟件生態(tài)實(shí)現(xiàn)。因此國內(nèi)GPU廠商如果想真正對標(biāo)英偉達(dá)，CUDA生態(tài)是繞不開的一環(huán)。

國產(chǎn)GPU整個商業(yè)生態(tài)尚未成熟

在芯片“斷供”之前，國內(nèi)購買海外高端GPU芯片之路暢通，很少有客戶在重大項(xiàng)目采購時會考慮國產(chǎn)GPU，都普遍傾向海外最先進(jìn)、最穩(wěn)定的產(chǎn)品，以保證項(xiàng)目順利完成。究其原因有二，一是畢竟國產(chǎn)GPU的發(fā)展才剛剛起步，在性能和穩(wěn)定性方面尚未取得長時間，多項(xiàng)目的驗(yàn)證，不少國產(chǎn)GPU在實(shí)際應(yīng)用中出現(xiàn)了工作負(fù)載低，芯片性能不穩(wěn)定，兼容性差的情況。二是軟件生態(tài)不夠完善，如果一個芯片沒有與之配套的軟件生態(tài)，則很難真正形成大面積的應(yīng)用。

在當(dāng)下GPU應(yīng)用最火的AI大模型訓(xùn)練中，騰訊云新一代HCC（High-Performance Computing Cluster）高性能計算集群使用的是英偉達(dá)最新代次H800 GPU；阿里曾在 2018-2019 年采購了上萬塊英偉達(dá)的V100和T4 GPU用于近年來的云計算和大模型訓(xùn)練，其他字節(jié)、百度、美團(tuán)、B站等都清一色采購英偉達(dá)的A100、H100 GPU或是去年禁令后英偉達(dá)專門推出的減配版 A800、H800 GPU。

這使得國產(chǎn)GPU在國內(nèi)鮮有大企業(yè)應(yīng)用成功的案例，大部分還僅僅圍繞在PC、圖形渲染領(lǐng)域，或是應(yīng)用在專門的軍事、政府等部門。商業(yè)市場的大門，只是開了一條縫。

另外，國產(chǎn)GPU廠商的硬件架構(gòu)，軟件API接口不盡相同，客戶基本只能多選一，兼容和替換都不夠靈活，比較難實(shí)現(xiàn)技術(shù)生態(tài)的統(tǒng)一。

短期難盈利

對于GPU創(chuàng)企而言，巨大的研發(fā)費(fèi)用和資本開支是必需，但長期、持續(xù)的利潤支撐才是GPU跨代發(fā)展的強(qiáng)勁驅(qū)動力。

盡管近幾年因?yàn)锳I人工智能的火爆，使得GPU創(chuàng)企的融資環(huán)境變得相對寬松，但由于國內(nèi)近幾年批量的GPU創(chuàng)企涌入，使得競爭激烈，加上研發(fā)投入巨大，在規(guī)模市場打開之前，GPU廠商在短期內(nèi)難以實(shí)現(xiàn)量產(chǎn)盈利，令一眾大VC和PE機(jī)構(gòu)望而卻步。

芯片市場上，OPPO上個月關(guān)停了手機(jī)芯片自研公司哲庫，便是因?yàn)槎唐陔y盈利，倒在了黎明前。同樣，對于部分GPU創(chuàng)企來說，也面臨著資本市場洗牌的風(fēng)險。

種子選手的秘密

在目前國內(nèi)一票GPU的“種子選手”中，一家名叫壁仞科技的企業(yè)引起了人們的注意。原因很簡單，那就是其產(chǎn)品BR100不僅創(chuàng)下了全球算力紀(jì)錄，并且宣稱其峰值算力達(dá)到了英偉達(dá)A100的3倍，甚至還能對標(biāo)沒發(fā)售的H100。

然而，稍微了解過國內(nèi)芯片行業(yè)的人都知道，在芯片領(lǐng)域，國內(nèi)的炒作太多了，徒有其表的例子也太多了。

那么，做出這個“媲美英偉達(dá)”GPU的企業(yè)，究竟是什么來頭？其自主研發(fā)的BR100，是否真的像其宣傳的那樣出色？

要回答這個問題，我們不妨先看看壁仞科技的創(chuàng)始班底，技術(shù)背景究竟如何。

作為一家通用智能芯片設(shè)計研發(fā)商的壁仞科技，成立于2019年，團(tuán)隊(duì)由國內(nèi)外芯片和云計算領(lǐng)域的專家和研發(fā)人員組成。其創(chuàng)始人張旭博士，不僅擁有清華大學(xué)和斯坦福大學(xué)的博士學(xué)位，還曾是英偉達(dá)的高級架構(gòu)師，負(fù)責(zé)Volta架構(gòu)的設(shè)計和開發(fā)。

除此之外，團(tuán)隊(duì)其他成員的技術(shù)身份，也頗為亮眼。

李新榮，聯(lián)席CEO，曾任AMD全球副總裁、中國研發(fā)中心總經(jīng)理，負(fù)責(zé)AMD大中華區(qū)的研發(fā)建設(shè)和管理工作。

洪洲，CTO，曾在NVIDIA、S3、華為等工作操刀GPU工程項(xiàng)目，擁有超過30年的GPU領(lǐng)域經(jīng)驗(yàn)。

焦國方，軟件生態(tài)環(huán)境主要負(fù)責(zé)人，曾在高通領(lǐng)導(dǎo)和產(chǎn)品研發(fā)了5代Adreno移動GPU系統(tǒng)架構(gòu)。

這樣的團(tuán)隊(duì)背景，決定了壁仞科技的技術(shù)底色。

依據(jù)之前在英偉達(dá)、AMD、高通、商湯科技等知名企業(yè)的研發(fā)經(jīng)驗(yàn)和技術(shù)積累，壁仞科技研發(fā)了自主原創(chuàng)的芯片架構(gòu)——壁立仞。壁立仞架構(gòu)基于SIMT（單指令多線程）模型，針對AI場景進(jìn)行了專用的優(yōu)化和定制。其最大的特點(diǎn)，就是可以將多個小芯片拼成一個大芯片，每個小芯片只做一部分功能，然后通過高速互連組合成一個大芯片。這樣可以提高芯片的良率和可靠性，同時降低成本和功耗，實(shí)現(xiàn)更強(qiáng)大的算力和擴(kuò)展性。

這就是壁仞科技所謂的Chiplet的設(shè)計理念。

這種技術(shù)的難點(diǎn)在于如何保證芯片之間的高速通信和協(xié)作，同時避免信號干擾和功耗過高。因此，如何設(shè)計合適的芯片分割和組合方案，使得每個芯片都能發(fā)揮最大的效能，同時減少電磁干擾和熱耗散，就成了Chiplet能否成功的關(guān)鍵。

對此，壁仞科技使用了兩種關(guān)鍵的技術(shù)2.5D CoWoS和BLink，來攻克這一難關(guān)。

簡單地說，2.5D CoWoS技術(shù)是一種把多個芯片堆疊在一起的技術(shù)，它利用了一個硅基板作為中介層，縮短了芯片之間的距離，從而提高了信號的傳輸速度和質(zhì)量。而BLink則在中介層上，建立了一個專用的接口，它可以讓多個芯片之間直接傳輸數(shù)據(jù)，而不需要經(jīng)過其他的電路或芯片，從而減少了延遲和功耗。然而，盡管2.5D CoWoS、BLink這些技術(shù)，讓壁仞科技打造出了算力更強(qiáng)的BR100，但這些技術(shù)，目前在國際上并不罕見，其他GPU廠商也有過類似的設(shè)計。

例如，Nvidia的A100和H100 GPU都采用了CoWoS技術(shù)，把GPU芯片和HBM內(nèi)存堆疊在一起，提高了內(nèi)存帶寬和計算性能。而Nvidia還開發(fā)了自己的NVLink接口，類似于BLink接口，可以讓多個GPU之間高速互聯(lián)。

此外，AMD也有自己的Infinity Fabric接口，可以實(shí)現(xiàn)類似的功能。

那既然這是一種“大家都能用”的技術(shù)，那壁仞科技怎么就做到讓BR100算力達(dá)到A100三倍的呢？而英偉達(dá)真就會坐視著自己被超越了？

其實(shí)，這樣的結(jié)果，是二者在不同數(shù)據(jù)格式下的表現(xiàn)所致。

具體來說，BR100的巨大算力，更多是在矩陣FP32數(shù)據(jù)格式下的表現(xiàn)。

一般來說，數(shù)據(jù)格式占用的位數(shù)越多，它的范圍和精度就越高，但是也會消耗更多的空間和電力。而矩陣FP32其實(shí)就是一種特殊的FP32數(shù)據(jù)格式，它只用了19位來存儲一個浮點(diǎn)數(shù)，這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。矩陣乘法是深度學(xué)習(xí)中最常見和最重要的計算操作之一，所以使用矩陣FP32可以大幅提升深度學(xué)習(xí)的性能。但是，矩陣FP32也有一個缺點(diǎn)，就是它的精度比向量FP32低，也就是說它能表示的浮點(diǎn)數(shù)的范圍和細(xì)節(jié)程度比向量FP32小。這樣就會導(dǎo)致一些誤差和損失，在某些情況下可能會影響模型的質(zhì)量和效果。

因此，矩陣FP32和英偉達(dá)A100的向量FP32并不等價，因?yàn)榫仃嘑P32只適用于矩陣乘法這種特定的計算操作，并不能代表GPU的整體性能。

國產(chǎn)力量的崛起

這些國產(chǎn)GPU廠商的崛起，對英偉達(dá)的AI算力市場份額構(gòu)成了一定的挑戰(zhàn)和威脅。

一方面，國產(chǎn)GPU廠商可以提供更高性價比、更低能耗、更靈活定制的產(chǎn)品和服務(wù)，滿足國內(nèi)客戶的多樣化需求和預(yù)算。

另一方面，國產(chǎn)GPU廠商可以避免受到美國政策的影響和干擾，保障國內(nèi)客戶的數(shù)據(jù)安全和供應(yīng)穩(wěn)定。

因此，國產(chǎn)GPU廠商有望在國內(nèi)市場占據(jù)更大的份額，甚至在國際市場上與英偉達(dá)展開競爭。

當(dāng)然，英偉達(dá)也不會坐以待斃，它仍然擁有著強(qiáng)大的技術(shù)優(yōu)勢、品牌影響力、生態(tài)合作力等資源，可以繼續(xù)保持其在AI算力領(lǐng)域的領(lǐng)先地位。英偉達(dá)不斷推出新一代的GPU芯片和加速卡，如Ampere（安培）架構(gòu)的A100、Grace（格雷斯）等，提升其在AI訓(xùn)練和推理方面的性能和效率。英偉達(dá)還不斷拓展其在AI應(yīng)用領(lǐng)域的布局，如收購Arm、DeepMap等公司，加強(qiáng)其在自動駕駛、物聯(lián)網(wǎng)、邊緣計算等領(lǐng)域的競爭力。英偉達(dá)還不斷完善其在AI開發(fā)生態(tài)方面的支持，如推出Jetson Nano、JetPack SDK等工具，降低AI開發(fā)者的門檻和成本。

國產(chǎn)顯卡的發(fā)展未來對英偉達(dá)顯卡AI算力需求的替代前景是一個值得關(guān)注和探討的話題。

從目前的情況來看，國產(chǎn)顯卡已經(jīng)取得了顯著的進(jìn)步和突破，對英偉達(dá)形成了一定的競爭壓力。但是，英偉達(dá)仍然保持著其在AI算力領(lǐng)域的領(lǐng)導(dǎo)地位，對國產(chǎn)顯卡也有著自己的應(yīng)對策略。

未來，隨著AI技術(shù)和應(yīng)用的不斷發(fā)展和創(chuàng)新，GPU市場將呈現(xiàn)出更加多元化和激烈化的態(tài)勢，這將對各個GPU廠商提出更高的要求和挑戰(zhàn)，也將為用戶帶來更多的選擇和價值。