都知道美國對我國AI以及算力發(fā)展是既忌憚又打壓,在之前關(guān)稅對戰(zhàn)結(jié)束后,川普又開始向芯片半導(dǎo)體方向猛烈進攻,大有全面進攻不利后,轉(zhuǎn)向單線重點進攻的意思。
一是廢了拜登的“分級制裁”政策;二是封殺華為;三是威脅全球企業(yè),誰幫中國就整誰。
封殺華為就是讓全世界的企業(yè)都必須二選一,如果用了華為昇騰芯片,那就是違反了新的政策,關(guān)于禁令就不詳聊了。既然點名了華為的昇騰芯片,那我們就詳細了解一下昇騰芯片,以及目前國內(nèi)AI處理器的進展。
昇騰 AI 處理器
先來說一下昇騰計算,是基于華為昇騰系列(HUAWEI Ascend)AI處理器和基礎(chǔ)軟件構(gòu)建Atlas人工智能計算解決方案,包括Atlas系列模塊、板卡、小站、服務(wù)器、集群等豐富的產(chǎn)品形態(tài),打造面向“端、邊、云”的全場景AI基礎(chǔ)設(shè)施方案,覆蓋深度學(xué)習領(lǐng)域推理和訓(xùn)練全流程。
華為公司針對 AI 領(lǐng)域?qū)S糜嬎懔可泶蛟炝恕斑_芬奇架構(gòu)”,并于 2018 年推出了基于“達芬奇架構(gòu)”的昇騰 AI 處理器,開啟了華為的AI之旅。
從基礎(chǔ)研究出發(fā),立足于自然語言處理、機器視覺、自動駕駛等領(lǐng)域,昇騰 AI 處理器致力于打造面向云邊端一體化的全棧全場景解決方案,同時為了配合其應(yīng)用目標,打造了異構(gòu)計算架構(gòu) CANN(Computer Architecture for Nerual Network),為昇騰 AI 處理器進行加速計算。
全棧指技術(shù)方面,包括 IP、芯片、加速計算、AI 框架、應(yīng)用使能等的全棧式設(shè)計方案。全場景包括公有云、私有云、各種邊緣計算、物聯(lián)網(wǎng)行業(yè)終端及消費者終端設(shè)備。圍繞全棧全場景,華為正以昇騰 AI 處理器為核心,以算力為驅(qū)動,以工具為抓手,全力突破 AI 發(fā)展的極限。
2018 年開始,昇騰 AI 處理器的訓(xùn)練和推理系列型號陸續(xù)推出。推理系列的處理器則是面向移動計算場景的強算力 AI 片上系統(tǒng)(SoC,System on Chip)。訓(xùn)練系列的處理器主要應(yīng)用于云端,可以為深度學(xué)習的訓(xùn)練算法提供強大算力。
在設(shè)計上,昇騰 AI 處理器意圖突破目前 AI 芯片功耗、運算性能和效率的約束,目的是極大提升能效比。昇騰 AI 處理器采用了華為自研的達芬奇架構(gòu),專門針對神經(jīng)網(wǎng)絡(luò)運算特征而量身定做,以高性能的 3D Cube 矩陣計算單元為基礎(chǔ),實現(xiàn)針對張量計算的算力和能效比大幅度提升。
每個矩陣計算單元可以由一條指令完成 4096 次乘加計算(如圖所示),并且處理器內(nèi)部還支持多維計算模式,如標量、矢量、矩陣等,打破了其它 AI 專用芯片的局現(xiàn)象,增加了計算的靈活度。同時支持多種類混合精度計算,在實現(xiàn)推理應(yīng)用的同時也強力支持了訓(xùn)練的數(shù)據(jù)精度要求。
達芬奇架構(gòu)的統(tǒng)一性體現(xiàn)在多個應(yīng)用場景的良好適配上,覆蓋高、中、低全場景,一次開發(fā)可支持多場景部署、遷移和協(xié)同。從架構(gòu)上提升了軟件效率。功耗優(yōu)勢也是該架構(gòu)的一個顯著特點,統(tǒng)一的架構(gòu)可以支持從幾十毫瓦到幾百瓦的芯片,可以進行多核靈活擴展,在不同應(yīng)用場景下發(fā)揮出芯片的能耗優(yōu)勢。
AI 處理器架構(gòu)
昇騰 AI 處理器本質(zhì)上是一個片上系統(tǒng)(System on Chip,SoC),主要可以應(yīng)用在和圖像、視頻、語音、文字處理相關(guān)的應(yīng)用場景。上圖是早期昇騰其處理器的邏輯架構(gòu),其主要的架構(gòu)組成部件包括特制的計算單元、大容量的存儲單元和相應(yīng)的控制單元。無論是訓(xùn)練還是推理的芯片以及上層的硬件型號,基于基于 DaVinci AI 技術(shù)架構(gòu)如圖所示。
該處理器大致可以劃為:芯片系統(tǒng)控制 CPU(Control CPU),AI 計算引擎(包括 AI Core 和 AI CPU),多層級的片上系統(tǒng)緩存(Cache)或緩沖區(qū)(Buffer),數(shù)字視覺預(yù)處理模塊(Digital Vision Pre-Processing,DVPP)等。
芯片可以采用 LPDDR4 高速主存控制器接口,價格較低。目前主流 SoC 芯片的主存一般由 DDR(Double Data Rate)或 HBM(High Bandwidth Memory)構(gòu)成,用來存放大量的數(shù)據(jù)。HBM 相對于 DDR 存儲帶寬較高,是行業(yè)的發(fā)展方向。其它通用的外設(shè)接口模塊包括 USB、磁盤、網(wǎng)卡、GPIO、I2C 和電源管理接口等。
昇騰 910
昇騰 910 處理器的目標場景是云端的推理和訓(xùn)練,其架構(gòu)如圖所示,包含 Davinci Core、DVPP、HBM、DDR4 等組件。
昇騰 910 處理器采用了芯粒(chiplet)技術(shù),包含六個 die: 1 個計算芯粒(包含 32 個 Davinci Core、16 個 CPU Core 和 4 個 DVDP),1 個 IO 芯粒,和 4 個 HBM 芯粒(總計 1.2TB/s 帶寬)。針對云端訓(xùn)練和推理場景,昇騰 910 處理器做的優(yōu)化包括:
高算力: 訓(xùn)練場景通常使用的 Batch Size 較大,因此采用最高規(guī)格的 Ascend-Max,每個 Core 每個周期可以完成 161616=4096 次 FP16 乘累加。
高 Load/Store 帶寬: 訓(xùn)練場景下計算反向 SGD 時,會有大量對 Last Level Cache 和片外緩存的訪問,因此需要配備較高的 Load/Store 帶寬,因此昇騰 910 除了 DDR 還采用了 HBM 技術(shù)。
100G NIC: 隨著 DNN 的模型尺寸愈發(fā)龐大,單機單卡甚至單機多卡已經(jīng)不能滿足云端訓(xùn)練的需求,為了支持多卡多機組成集群,昇騰 910 集成了支持 ROCE V2 協(xié)議的 100G NIC 用于跨服務(wù)器傳遞數(shù)據(jù),使得可以使用昇騰 910 組成萬卡集群。
高吞吐率的數(shù)字視覺與處理器(DVPP): DVPP 用于 JPEG、PNG 格式圖像編解碼、圖像預(yù)處理(對輸入圖像上下采樣、裁剪、色調(diào)轉(zhuǎn)換等)、視頻編解碼,為了適配云端推理場景,DVPP 最高支持 128 路 1080P 視頻解碼。
昇騰 310
昇騰 310 處理器的目標場景是邊緣推理,比如智慧城市、智慧新零售、機器人、工業(yè)制造等,其架構(gòu)如上圖所示,主要包含 Davinci Core、DVPP、LPDDR4 等組件。
相比昇騰 910,昇騰 310 的定制化 IP 相對較少,但是提供了更多外設(shè)接口。
達芬奇架構(gòu)針對通用卷積的計算特征和數(shù)據(jù)流規(guī)律,采用功能高度定制化的設(shè)計,將存儲、計算和控制單元進行有效的結(jié)合,在每個模塊完成獨立功能的同時實現(xiàn)了整體的優(yōu)化設(shè)計。AI Core 高效組合了矩陣計算單元與數(shù)據(jù)緩沖區(qū),縮短了存儲到計算的數(shù)據(jù)傳輸路徑,降低延時。
同時 AI Core 在片上集成了大容量的輸入緩沖區(qū)和輸出緩沖區(qū),一次可以讀取并緩存充足的數(shù)據(jù),減少了對核外存儲系統(tǒng)的訪問頻次,提升了數(shù)據(jù)搬移的效率。同時各類緩沖區(qū)相對于核外存儲系統(tǒng)具有較高的訪問速度,大量片上緩沖區(qū)的使用也極大提升了計算中實際可獲得的數(shù)據(jù)帶寬。
同時針對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)多樣性,AI Core 采用了靈活的數(shù)據(jù)通路,使得數(shù)據(jù)在片上緩沖區(qū)、核外存儲系統(tǒng)、存儲轉(zhuǎn)換單元以及計算單元之間可以快速流動和切換,從而滿足不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)的計算要求,使得 AI Core 對各種類型的計算具有一定的通用性。
介紹完昇騰芯片,再看看國產(chǎn)其他AI芯片的進展情況!
天數(shù)智芯天垓100與智鎧100:訓(xùn)練推理雙雄
天垓100是天數(shù)智芯推出的基于自研通用架構(gòu)的AI訓(xùn)練加速卡 ,專注于深度學(xué)習訓(xùn)練和多卡協(xié)作計算。其峰值算力為147 TFLOPS(FP16/BF16) ,支持多種數(shù)據(jù)精度,能靈活適配各類算法。雖然顯存帶寬為64GB/s,在一眾產(chǎn)品中不算突出,但其1.2TB/s的卡間互聯(lián)帶寬在分布式訓(xùn)練任務(wù)中優(yōu)勢巨大。天垓100兼容CUDA生態(tài)和主流深度學(xué)習框架,支持x86和ARM架構(gòu) ,編程能力靈活,軟件棧高效,能幫助客戶低成本、快速實現(xiàn)系統(tǒng)遷移,性價比出色。
智鎧100則是專注于推理任務(wù)的通用GPU加速卡?;谕ㄓ眉軜?gòu)設(shè)計,它能提供200 TFLOPS的推理算力 ,功耗僅150W,能效比極高,特別適合安防、金融等對低功耗部署要求嚴格的行業(yè)。智鎧100支持多種精度推理,同樣兼容CUDA生態(tài)和主流深度學(xué)習框架 ,軟件棧完善,工具豐富,為人工智能應(yīng)用的開發(fā)和部署提供高效支持,憑借高性價比和廣泛的行業(yè)適配性,成為推理任務(wù)的優(yōu)質(zhì)之選。
海光K100系列:顯存與計算的平衡
海光K100 AI版基于通用架構(gòu)設(shè)計,擁有196 TFLOPS的峰值算力 、64GB顯存和896GB/s的顯存帶寬,非常適合顯存密集型訓(xùn)練任務(wù)和高性能計算領(lǐng)域,功耗350W,支持飛槳框架ROCm版 ,可在海光CPU與其專用的DCU加速器上高效運行模型訓(xùn)練與預(yù)測任務(wù)。雖然計算性能相比英偉達A100和H100稍顯遜色,但通過硬件和軟件架構(gòu)優(yōu)化,在大模型的場景化落地方面展現(xiàn)出強勁的應(yīng)用能力。
海光K100擁有100 TFLOPS的峰值算力、64GB顯存和896GB/s的顯存帶寬 ,在FP16性能上與K100 AI版差異較大,采用雙精度計算單元,定位于需要高精度計算的通用任務(wù)場景。K100設(shè)計更通用,適用于高精度科學(xué)計算,而K100 AI版?zhèn)戎貑尉扔嬎?,在AI任務(wù)中效率更高。
寒武紀MLU590:分布式計算強者
寒武紀MLU590基于靈活的MLUv02擴展架構(gòu)設(shè)計 ,支持云端和端側(cè)應(yīng)用。具備314 TFLOPS(FP16)的峰值算力 、80GB顯存和高達2TB/s的帶寬,在分布式計算和大規(guī)模模型訓(xùn)練任務(wù)中表現(xiàn)尤其突出。其架構(gòu)具有端云一體的可擴展性 ,以TP和MTP作為最小擴展單元:TP適用于單個IPU核心,適合低功耗的端側(cè)應(yīng)用;MTP則由多個IPU核心組成Cluster,面向高性能的云端任務(wù) ,可通過單機多卡或多機多卡的MLU-Link集群實現(xiàn)并行加速,滿足云端AI計算和分布式任務(wù)的多樣化需求,在性能、靈活性和擴展性之間達到了良好平衡。
性能大對比
1、算力比拼
在峰值算力方面,華為昇騰910B以376 TFLOPS(FP16)的成績名列前茅,展現(xiàn)出強大的計算能力,能夠輕松應(yīng)對大規(guī)模深度學(xué)習和復(fù)雜數(shù)據(jù)處理任務(wù);
寒武紀MLU590的314 TFLOPS(FP16)也十分可觀,在分布式計算場景中優(yōu)勢明顯;
海光K100 AI版的196 TFLOPS在顯存密集型訓(xùn)練中發(fā)揮重要作用 ;
天數(shù)智芯天垓100的147 TFLOPS(FP16/BF16)雖相對低一些,但在多卡協(xié)作計算中憑借出色的卡間互聯(lián)帶寬彌補不足;
海光K100的100 TFLOPS適用于高精度通用計算任務(wù) ;
天數(shù)智芯智鎧100專注推理,200 TFLOPS的推理算力也能滿足其目標行業(yè)需求。
2、顯存與帶寬
顯存和帶寬對AI加速器性能影響重大,特別是在大規(guī)模模型訓(xùn)練和推理任務(wù)中。
寒武紀MLU590憑借80GB顯存和2TB/s的超高帶寬 ,在大規(guī)模模型訓(xùn)練和數(shù)據(jù)吞吐方面表現(xiàn)卓越;
海光K100系列的64GB顯存和896GB/s帶寬 ,使其在顯存密集型任務(wù)中實力強勁;
天數(shù)智鎧100和天垓100顯存為32GB ,但帶寬分別達到800GB/s和64GB/s ,適合中型模型和推理應(yīng)用;
華為昇騰910B的64GB顯存和392GB/s帶寬 ,結(jié)合強大算力,在深度學(xué)習等場景表現(xiàn)出色。
3、功耗表現(xiàn)
從功耗上看,各顯卡在能效設(shè)計上各有側(cè)重。
華為昇騰910B、海光K100 AI版、寒武紀MLU590均采用350W的高功耗設(shè)計,聚焦于高性能計算和大規(guī)模AI訓(xùn)練任務(wù),以強大算力為首要目標;
海光K100標準版功耗稍低,為300W ,適合對算力和能效均有需求的場景;天數(shù)天垓100以250W的功耗實現(xiàn)較優(yōu)的算力與能效平衡 ;
智鎧100功耗僅為150W ,是推理任務(wù)和低功耗應(yīng)用的理想選擇,特別適合對能效要求較高的行業(yè)應(yīng)用。