本文所有資料都已上傳至“智能計算芯知識”星球。如“《60+份AI Agent技術(shù)報告合集》”,“《清華大學(xué):DeepSeek報告13部曲合集》”,“浙江大學(xué):DeepSeek技術(shù)20篇(合集)”,“《300+份DeepSeek技術(shù)報告合集》”,“《100+份AI芯片技術(shù)修煉合集》”,“800+份重磅ChatGPT專業(yè)報告”,“《12+份Manus技術(shù)報告合集》”,加入星球獲取嚴選精華技術(shù)報告。
華為昇騰910(Ascend 910)是華為基于自研達芬奇(Da Vinci)架構(gòu)開發(fā)的高性能AI處理器,采用7nm+ EUV先進制程工藝,專為人工智能訓(xùn)練場景設(shè)計。作為Ascend-Max系列旗艦產(chǎn)品,昇騰910在半精度(FP16)下提供256 Tera-FLOPS算力,整數(shù)精度(INT8)算力高達512 Tera-OPS,同時功耗控制在310W,能效比顯著優(yōu)于業(yè)界同類產(chǎn)品。
本文介紹昇騰910的技術(shù)架構(gòu)、關(guān)鍵參數(shù)、性能表現(xiàn)及配套軟件生態(tài),為AI開發(fā)者提供參考。
1. 產(chǎn)品概述
1.1 產(chǎn)品定位
昇騰910是華為全棧全場景AI解決方案的核心算力基礎(chǔ),主要面向:
數(shù)據(jù)中心AI訓(xùn)練場景
大規(guī)模分布式訓(xùn)練系統(tǒng)
高性能計算(HPC)與深度學(xué)習(xí)融合應(yīng)用
云服務(wù)AI加速平臺
1.2 關(guān)鍵特性
超高計算密度:單芯片集成32個達芬奇核心,F(xiàn)P16算力256 TFLOPS
卓越能效比:實測功耗310W,低于設(shè)計規(guī)格350W
全場景支持:與MindSpore框架深度協(xié)同,支持端-邊-云統(tǒng)一架構(gòu)
先進制程:7nm+ EUV工藝實現(xiàn)更高晶體管密度
安全可信:內(nèi)置模型保護機制,支持隱私計算
2. 技術(shù)規(guī)格
2.1 硬件參數(shù)
參數(shù)類別 | 規(guī)格詳情 |
---|---|
架構(gòu) | 達芬奇架構(gòu)(Da Vinci) |
制程工藝 | 7nm+ EUV |
計算精度 | FP16: 256 TFLOPS / INT8: 512 TOPS |
核心數(shù)量 | 32個達芬奇核心 |
功耗 | 設(shè)計值350W,實測310W |
視頻解碼 | 128通道全高清(H.264/265)解碼器 |
互聯(lián)接口 | HCCS(240Gbps)、PCIe、RoCE |
封裝尺寸 | 待補充 |
表:昇騰910關(guān)鍵硬件規(guī)格
2.2 計算架構(gòu)
昇騰910采用創(chuàng)新的達芬奇3D Cube架構(gòu),核心計算單元包括:
3D Cube矩陣乘法單元:
單周期完成4096次乘加運算
相比CPU/GPU有兩個數(shù)量級的提升
32個Cube引擎并行工作,提供256TFLOPS算力
向量計算單元(Vector):
支持豐富的定制計算指令
處理非矩陣類運算任務(wù)
覆蓋各種基本計算類型
標量計算單元(Scalar):
功能相當于精簡CPU核
負責(zé)程序流控制、分支判斷
處理基礎(chǔ)算術(shù)運算
這種異構(gòu)計算架構(gòu)實現(xiàn)了計算任務(wù)的高效分工,使昇騰910能夠自主完成整個AI訓(xùn)練流程,最小化與Host的交互。
3. 性能表現(xiàn)
3.1 基準測試
在典型AI訓(xùn)練任務(wù)中,昇騰910表現(xiàn)出色:
ResNet50訓(xùn)練:與主流訓(xùn)練單卡+TensorFlow相比,性能提升近2倍(圖片處理從965張/秒提升至1802張/秒)
算力效率:實際算力完全達到設(shè)計規(guī)格,功耗低于預(yù)期
計算密度:遠超NVIDIA Tesla V100和Google TPU v3
3.2 集群性能
華為基于昇騰910構(gòu)建的Ascend集群:
單集群包含1024顆昇騰910
總算力達到256P(Peta-FLOPS)
大幅超越NVIDIA DGX2和Google TPU集群性能
4. 軟件生態(tài)
4.1 全場景AI框架
昇騰910與華為自研的MindSpore框架深度協(xié)同,提供:
開發(fā)效率提升:核心代碼量減少20%,整體效率提升50%
自動微分:采用Source 2 Source方式實現(xiàn),優(yōu)于傳統(tǒng)圖優(yōu)化方法
分布式訓(xùn)練:自動實現(xiàn)多機混合并行,無需手動切分模型
隱私保護:通過梯度/模型信息協(xié)同而非原始數(shù)據(jù)傳遞
4.2 算子庫與工具鏈
CANN算子庫:提供高性能AI算子,開發(fā)效率提升3倍
TensorEngine:統(tǒng)一DSL接口,支持自動算子優(yōu)化與生成
ModelArts:機器學(xué)習(xí)PaaS平臺,日均訓(xùn)練作業(yè)超4000個
5. 應(yīng)用場景
昇騰910適用于多種AI計算場景:
大規(guī)模模型訓(xùn)練:
支持千億參數(shù)級模型訓(xùn)練
適合NLP、CV等前沿AI研究
云端AI服務(wù):
華為云EI服務(wù)基礎(chǔ)算力
提供59種AI服務(wù)、159項功能
行業(yè)智能:
醫(yī)療影像分析
金融風(fēng)控建模
工業(yè)質(zhì)檢等專業(yè)領(lǐng)域
科學(xué)計算:
分子動力學(xué)模擬
氣候預(yù)測等HPC場景
6. 產(chǎn)品路線圖
1.?第一代昇騰(2018-2020)
昇騰310:面向邊緣推理場景,采用12nm工藝,INT8算力16 TOPS,功耗8W,主打低延遲推理(如攝像頭、車載設(shè)備)。
昇騰910:首款數(shù)據(jù)中心級訓(xùn)練芯片,7nm工藝,F(xiàn)P16算力256 TFLOPS,功耗310W,支持華為全棧AI生態(tài)(MindSpore、ModelArts)。
2.?第二代昇騰(2021-2023)
昇騰910B:7nm+ EUV工藝優(yōu)化,F(xiàn)P16算力提升至376 TFLOPS,支持更高效的大模型訓(xùn)練,適配華為云昇騰AI云服務(wù)。
昇騰310B:邊緣端升級版,支持多模態(tài)推理(視覺、語音),集成輕量級MindSpore Lite框架。
3.?第三代昇騰(2024-2025)
昇騰910C:用于CloudMatrix 384超節(jié)點集群,單節(jié)點集成384顆芯片,支持萬億參數(shù)大模型訓(xùn)練,顯存帶寬優(yōu)化至3TB/s以上。
昇騰320:面向邊緣計算的下一代芯片,5nm工藝,能效比提升50%,支持端-邊-云協(xié)同推理。
4.?未來規(guī)劃(2026+)
昇騰920:預(yù)計采用3nm工藝,F(xiàn)P16算力目標突破1 PFLOPS,支持FP8精度和動態(tài)稀疏計算,適配MoE架構(gòu)大模型。
2025年推出CloudMatrix 384超節(jié)點集群,基于昇騰910C芯片,單集群算力達百P級(Peta-FLOPS),支持30天不間斷訓(xùn)練,故障恢復(fù)時間<10分鐘;用于DeepSeek等千億級大模型訓(xùn)練、多模態(tài)長序列處理。
7. 技術(shù)優(yōu)勢總結(jié)
算力領(lǐng)先:FP16算力256 TFLOPS,超越同期競品50-100%
能效優(yōu)異:310W實際功耗,能效比達業(yè)界最佳水平兩倍
架構(gòu)創(chuàng)新:3D Cube設(shè)計實現(xiàn)超高計算密度
全棧協(xié)同:與MindSpore深度優(yōu)化,發(fā)揮硬件最大潛能
場景覆蓋:支持從云端到邊緣的全場景AI部署
8. 術(shù)語介紹&解釋
8.1 術(shù)語表
達芬奇架構(gòu):華為自研的異構(gòu)AI計算架構(gòu)
3D Cube:專為矩陣運算優(yōu)化的三維計算單元
MindSpore:華為全場景AI計算框架
CANN:華為AI算子庫
8.2 測試環(huán)境
測試平臺:華為Atlas 900 AI訓(xùn)練集群
對比系統(tǒng):NVIDIA DGX-2 with Tesla V100
基準模型:ResNet50、Transformer等
下載鏈接:
「重磅合集」
1、《70+篇半導(dǎo)體行業(yè)“研究框架”合集》
2、《56+份智能網(wǎng)卡和DPU合集》
3、《14份半導(dǎo)體“AI的iPhone時刻”系列合集》
4、《21份走進“芯”時代系列深度報告合集》
5、《800+份重磅ChatGPT專業(yè)報告》
6、《92份GPU技術(shù)及白皮書匯總》
7、《11+份AI的裂變時刻系列報告》
8、《3+份技術(shù)系列基礎(chǔ)知識詳解(星球版)》
9、《12+份Manus技術(shù)報告合集》
10、《100+份AI芯片修煉合集》
11、《60+份AI Agent技術(shù)報告合集》?
《100+份AI芯片技術(shù)修煉合集》
《300+份DeepSeek技術(shù)報告合集》
《42篇半導(dǎo)體行業(yè)深度報告&圖譜(合集)
亞太芯谷科技研究院:2024年AI大算力芯片技術(shù)發(fā)展與產(chǎn)業(yè)趨勢
SSD閃存技術(shù)基礎(chǔ)知識全解(知識星球版)服務(wù)器基礎(chǔ)知識全解(知識星球版)存儲系統(tǒng)基礎(chǔ)知識全解(知識星球版)2025新技術(shù)前瞻專題系列合集《科技龍頭巡禮專題:華為技術(shù)合集》
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。