国产成人无线视频不卡二_区二区三区在线 | 欧洲_国产精品午夜福利在线观看地址_亚洲AV激情无码专区在线播放

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

又一國產企業(yè)立志攻克GPU難題,造一塊自己的顯卡到底有多難?

2023-09-07 來源:賢集網
4366

關鍵詞: GPU ChatGPT 芯片

近日,武漢市科技局下達2023年度重點研發(fā)計劃項目。攀升科技“基于國產GPU的顯卡研制及產業(yè)化”項目位列其中。項目落地后,將解決潛在“卡脖子”產品——“顯卡”的核心計算組件國產化難題。

2023年2月,中共中央、國務院印發(fā)《數字中國建設整體布局規(guī)劃》,明確要夯實數字中國建設基礎,并構建自立自強的數字技術創(chuàng)新體系。今年以來,在ChatGPT快速迭代的浪潮下,神經網絡、深度學習和預訓練大模型等人工智能技術進入井噴期,全球對超大規(guī)模并行算力需求暴增,獨立顯卡作為AI算力核心基礎設施的重要性日益突出。

在GPU領域,我國一直缺少核心技術以及生產經驗,與國際水平差距較大。國產品牌急需突破和壯大,解決潛在“卡脖子”產品核心技術,實施國產品牌替代,共建“光芯屏端網”產業(yè)鏈。



攀升科技此次立項成功的“基于國產GPU的顯卡研制及產業(yè)化”項目,將解決各類計算“終端”的核心計算組件國產化問題,極大提升計算終端組件的國產化率;基于國家數字基礎建設和獨立自主技術創(chuàng)新的導向,向各領域提供所需的國產品牌顯卡產品,為武漢市和國家的數字基礎建設提供硬科技產品基礎,解決潛在“卡脖子”風險。

本項目將實現從顯卡核心軟硬件設計、研發(fā)調試、生產制造到品控檢驗等全流程的核心技術國產化和經驗積累,在諸如顯卡PCB集成電路、供電模組、散熱模組和顯存、供電管理等關鍵技術環(huán)節(jié)進行創(chuàng)新和突破。


GPU研發(fā)技術壁壘極高

GPU的研發(fā)是一項大型的系統(tǒng)工程,包含硬件架構、算法、軟件生態(tài)等多個組成,缺一不可,壁壘極高。CPU巨頭Intel近二十年多次嘗試征服高端GPU領域,曾在前兩年專門成立加速計算系統(tǒng)與圖形事業(yè)部(AXG),試圖再度殺入高端GPU市場,卻始終反響平平。甚至現在的GPU絕對霸主NVIDIA,從95年首款產品NV1正式誕生發(fā)展至今,也是在顯卡領域耕耘了20多年才有當前的成績。足可見GPU產業(yè)的門檻之高。

在硬件上,國產最大的問題就是IP,任何一款高端芯片的打造都離不開IP。但是,GPU IP的自研開發(fā)需要3-5年的周期,需要數百個專業(yè)領域的工程師。因此短時間內在硬件上實現完全國產化并不容易,國內GPU廠商如芯動、摩爾線程等幾乎都是外購IP加上部分的自主研發(fā)。中天恒星剛發(fā)布的“天狼星”雖然實現了國產自主GPU架構,100%IP屬于自主研發(fā),但真正要完善軟件生態(tài),穩(wěn)定商用,我想還需要很長的一段時間。

在軟件上,國產難題主要涉及驅動開發(fā)、算法及軟件生態(tài)。業(yè)內人士指出,計算芯片最大的門檻其實不是硬件,而是軟件。目前業(yè)內GPU特別是用于通用算力的GPGPU,主流的軟件架構是英偉達的CUDA,此架構在2006問世以來,與下游軟件、驅動廠家已經有了深度合作。而且CUDA本身涵蓋了多個技術領域,其開發(fā)與后續(xù)更新都與英偉達自家GPU高度綁定,從某種角度來看,英偉達在GPU領域的壟斷很大程度上是通過CUDA平臺上的軟件生態(tài)實現。因此國內GPU廠商如果想真正對標英偉達,CUDA生態(tài)是繞不開的一環(huán)。


國產GPU整個商業(yè)生態(tài)尚未成熟

在芯片“斷供”之前,國內購買海外高端GPU芯片之路暢通,很少有客戶在重大項目采購時會考慮國產GPU,都普遍傾向海外最先進、最穩(wěn)定的產品,以保證項目順利完成。究其原因有二,一是畢竟國產GPU的發(fā)展才剛剛起步,在性能和穩(wěn)定性方面尚未取得長時間,多項目的驗證,不少國產GPU在實際應用中出現了工作負載低,芯片性能不穩(wěn)定,兼容性差的情況。二是軟件生態(tài)不夠完善,如果一個芯片沒有與之配套的軟件生態(tài),則很難真正形成大面積的應用。

在當下GPU應用最火的AI大模型訓練中,騰訊云新一代HCC(High-Performance Computing Cluster)高性能計算集群使用的是英偉達最新代次H800 GPU;阿里曾在 2018-2019 年采購了上萬塊英偉達的V100和T4 GPU用于近年來的云計算和大模型訓練,其他字節(jié)、百度、美團、B站等都清一色采購英偉達的A100、H100 GPU或是去年禁令后英偉達專門推出的減配版 A800、H800 GPU。

這使得國產GPU在國內鮮有大企業(yè)應用成功的案例,大部分還僅僅圍繞在PC、圖形渲染領域,或是應用在專門的軍事、政府等部門。商業(yè)市場的大門,只是開了一條縫。

另外,國產GPU廠商的硬件架構,軟件API接口不盡相同,客戶基本只能多選一,兼容和替換都不夠靈活,比較難實現技術生態(tài)的統(tǒng)一。




短期難盈利

對于GPU創(chuàng)企而言,巨大的研發(fā)費用和資本開支是必需,但長期、持續(xù)的利潤支撐才是GPU跨代發(fā)展的強勁驅動力。

盡管近幾年因為AI人工智能的火爆,使得GPU創(chuàng)企的融資環(huán)境變得相對寬松,但由于國內近幾年批量的GPU創(chuàng)企涌入,使得競爭激烈,加上研發(fā)投入巨大,在規(guī)模市場打開之前,GPU廠商在短期內難以實現量產盈利,令一眾大VC和PE機構望而卻步。

芯片市場上,OPPO上個月關停了手機芯片自研公司哲庫,便是因為短期難盈利,倒在了黎明前。同樣,對于部分GPU創(chuàng)企來說,也面臨著資本市場洗牌的風險。


種子選手的秘密

在目前國內一票GPU的“種子選手”中,一家名叫壁仞科技的企業(yè)引起了人們的注意。原因很簡單,那就是其產品BR100不僅創(chuàng)下了全球算力紀錄,并且宣稱其峰值算力達到了英偉達A100的3倍,甚至還能對標沒發(fā)售的H100。



然而,稍微了解過國內芯片行業(yè)的人都知道,在芯片領域,國內的炒作太多了,徒有其表的例子也太多了。

那么,做出這個“媲美英偉達”GPU的企業(yè),究竟是什么來頭?其自主研發(fā)的BR100,是否真的像其宣傳的那樣出色?

要回答這個問題,我們不妨先看看壁仞科技的創(chuàng)始班底,技術背景究竟如何。

作為一家通用智能芯片設計研發(fā)商的壁仞科技,成立于2019年,團隊由國內外芯片和云計算領域的專家和研發(fā)人員組成。其創(chuàng)始人張旭博士,不僅擁有清華大學和斯坦福大學的博士學位,還曾是英偉達的高級架構師,負責Volta架構的設計和開發(fā)。

除此之外, 團隊其他成員的技術身份,也頗為亮眼。

李新榮,聯(lián)席CEO,曾任AMD全球副總裁、中國研發(fā)中心總經理,負責AMD大中華區(qū)的研發(fā)建設和管理工作。

洪洲,CTO,曾在NVIDIA、S3、華為等工作操刀GPU工程項目,擁有超過30年的GPU領域經驗。

焦國方,軟件生態(tài)環(huán)境主要負責人,曾在高通領導和產品研發(fā)了5代Adreno移動GPU系統(tǒng)架構。

這樣的團隊背景,決定了壁仞科技的技術底色。

依據之前在英偉達、AMD、高通、商湯科技等知名企業(yè)的研發(fā)經驗和技術積累,壁仞科技研發(fā)了自主原創(chuàng)的芯片架構——壁立仞。壁立仞架構基于SIMT(單指令多線程)模型,針對AI場景進行了專用的優(yōu)化和定制。其最大的特點,就是可以將多個小芯片拼成一個大芯片,每個小芯片只做一部分功能,然后通過高速互連組合成一個大芯片。這樣可以提高芯片的良率和可靠性,同時降低成本和功耗,實現更強大的算力和擴展性。

這就是壁仞科技所謂的Chiplet的設計理念。

這種技術的難點在于如何保證芯片之間的高速通信和協(xié)作,同時避免信號干擾和功耗過高。因此,如何設計合適的芯片分割和組合方案,使得每個芯片都能發(fā)揮最大的效能,同時減少電磁干擾和熱耗散,就成了Chiplet能否成功的關鍵。

對此,壁仞科技使用了兩種關鍵的技術2.5D CoWoS和BLink,來攻克這一難關。

簡單地說,2.5D CoWoS技術是一種把多個芯片堆疊在一起的技術,它利用了一個硅基板作為中介層,縮短了芯片之間的距離,從而提高了信號的傳輸速度和質量。而BLink則在中介層上,建立了一個專用的接口,它可以讓多個芯片之間直接傳輸數據,而不需要經過其他的電路或芯片,從而減少了延遲和功耗。然而,盡管2.5D CoWoS、BLink這些技術,讓壁仞科技打造出了算力更強的BR100,但這些技術,目前在國際上并不罕見,其他GPU廠商也有過類似的設計。

例如,Nvidia的A100和H100 GPU都采用了CoWoS技術,把GPU芯片和HBM內存堆疊在一起,提高了內存帶寬和計算性能。而Nvidia還開發(fā)了自己的NVLink接口,類似于BLink接口,可以讓多個GPU之間高速互聯(lián)。



此外,AMD也有自己的Infinity Fabric接口,可以實現類似的功能。

那既然這是一種“大家都能用”的技術,那壁仞科技怎么就做到讓BR100算力達到A100三倍的呢?而英偉達真就會坐視著自己被超越了?

其實,這樣的結果,是二者在不同數據格式下的表現所致。

具體來說,BR100的巨大算力,更多是在矩陣FP32數據格式下的表現。

一般來說,數據格式占用的位數越多,它的范圍和精度就越高,但是也會消耗更多的空間和電力。而矩陣FP32其實就是一種特殊的FP32數據格式,它只用了19位來存儲一個浮點數,這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。矩陣乘法是深度學習中最常見和最重要的計算操作之一,所以使用矩陣FP32可以大幅提升深度學習的性能。但是,矩陣FP32也有一個缺點,就是它的精度比向量FP32低,也就是說它能表示的浮點數的范圍和細節(jié)程度比向量FP32小。這樣就會導致一些誤差和損失,在某些情況下可能會影響模型的質量和效果。

因此,矩陣FP32和英偉達A100的向量FP32并不等價,因為矩陣FP32只適用于矩陣乘法這種特定的計算操作,并不能代表GPU的整體性能。


國產力量的崛起

這些國產GPU廠商的崛起,對英偉達的AI算力市場份額構成了一定的挑戰(zhàn)和威脅。

一方面,國產GPU廠商可以提供更高性價比、更低能耗、更靈活定制的產品和服務,滿足國內客戶的多樣化需求和預算。

另一方面,國產GPU廠商可以避免受到美國政策的影響和干擾,保障國內客戶的數據安全和供應穩(wěn)定。

因此,國產GPU廠商有望在國內市場占據更大的份額,甚至在國際市場上與英偉達展開競爭。

當然,英偉達也不會坐以待斃,它仍然擁有著強大的技術優(yōu)勢、品牌影響力、生態(tài)合作力等資源,可以繼續(xù)保持其在AI算力領域的領先地位。英偉達不斷推出新一代的GPU芯片和加速卡,如Ampere(安培)架構的A100、Grace(格雷斯)等,提升其在AI訓練和推理方面的性能和效率。英偉達還不斷拓展其在AI應用領域的布局,如收購Arm、DeepMap等公司,加強其在自動駕駛、物聯(lián)網、邊緣計算等領域的競爭力。英偉達還不斷完善其在AI開發(fā)生態(tài)方面的支持,如推出Jetson Nano、JetPack SDK等工具,降低AI開發(fā)者的門檻和成本。

國產顯卡的發(fā)展未來對英偉達顯卡AI算力需求的替代前景是一個值得關注和探討的話題。

從目前的情況來看,國產顯卡已經取得了顯著的進步和突破,對英偉達形成了一定的競爭壓力。但是,英偉達仍然保持著其在AI算力領域的領導地位,對國產顯卡也有著自己的應對策略。

未來,隨著AI技術和應用的不斷發(fā)展和創(chuàng)新,GPU市場將呈現出更加多元化和激烈化的態(tài)勢,這將對各個GPU廠商提出更高的要求和挑戰(zhàn),也將為用戶帶來更多的選擇和價值。



日韩一欧美内射在线观看 | 国产suv精品一区二区6| 色欲狠狠躁天天躁无码中文字幕| 久久综合伊人77777麻豆| 亚洲精品无码久久久| а√最新版在线天堂| 亚洲妇熟xxxx妇色黄| 国产自偷亚洲精品页65页| 亚洲国产精品一区二区成人片| 醉酒后少妇被疯狂内射视频| 大陆国产乱人伦| 中日av乱码一区二区三区乱码| 日本污ww视频网站| 国产真人无码作爱视频免费| 亚洲自偷精品视频自拍| 亚洲av无码乱码国产精品fc2| 一本无码中文字幕在线观| 中文字幕亚洲乱码熟女在线萌芽| а√中文在线资源库| 无码人妻一区二区三区精品视频| 亚洲一区二区三区无码久久| 少妇粗大进出白浆嘿嘿视频| 国产全肉乱妇杂乱视频 | 亚洲精品无码久久久久去q| 亚洲肥老太bbw中国熟女| 狠狠色狠狠色综合| 97在线视频人妻无码| 色窝窝无码一区二区三区成人网站| 国语对白嫖老妇胖老太| 少妇无码av无码专线区大牛影院| 亚洲天堂2017无码中文| 精品久久欧美熟妇www| 草草地址线路①屁屁影院成人| 无码高潮少妇毛多水多水 | 国产无套内射普通话对白| 日本少妇被黑人xxxxx| 热久久国产欧美一区二区精品| 亚洲日韩成人无码| 黑人巨大粗物挺进了少妇| 亚洲中久无码永久在线观看软件| 国产国语熟妇视频在线观看 |