Blackwell架構(gòu)與技術(shù)創(chuàng)新
優(yōu)化的 CUDA 核心設(shè)計:CUDA 核心經(jīng)過重新設(shè)計,對于混合精度計算的吞吐量顯著提升,更好地滿足 AI 和機器學習任務中大量的混合精度運算需求。
新一代光線追蹤技術(shù):專用的光線追蹤(RT)核心算法得到改進,能夠更快速、準確地生成逼真的光線追蹤效果,如實時的光影、反射和陰影等,提升了圖形渲染的真實感。
DLSS 升級:推出了新一代的深度學習超級采樣(DLSS)技術(shù),利用 AI 對低分辨率圖像進行實時上采樣,在不損失視覺質(zhì)量的前提下,有效提高游戲幀率。
性能提升
算力大幅增強:以 B200 為例,相比 Hopper 系列的 H100,F(xiàn)P16/BF16 算力從 989TFlops 升級到 2250TFlops,提升了 2.25 倍;FP8 算力從 1979TFlops 升級到 4500TFlops。
內(nèi)存帶寬顯著增加:從 Hopper 系列 H100 的 3.4TB/s 和 H200 的 4.8TB/s 增加到 Blackwell 系列的 8.0TB/s,更高的內(nèi)存帶寬直接提高了推理吞吐量和交互性,使 GPU 在處理大規(guī)模數(shù)據(jù)和復雜模型時更加高效。
NVLink 升級:從 Hopper 的 NVLink Gen4 雙向 50GB/s 升級到 Blackwell 的 Gen5 雙向帶寬 100GB/s,同樣是 18 個 NVLink 端口,總雙向帶寬達到 1800GB/s,大大增強了多 GPU 之間的通信速度和協(xié)同工作能力。
產(chǎn)品形態(tài)豐富
GB200 Superchip:包含一個 Grace 72 核的 ARM CPU 和 2 個 B200,擁有 384GB 的 GPU 內(nèi)存,帶寬為 16TB/s,通過 NVLink C2C 實現(xiàn) CPU 與 GPU 900GB/s 帶寬互聯(lián),在 AI 計算方面具有強大的性能。
GB200 NVL2:包含 2 塊 Grace CPUs 和 2 塊 B200 GPU,采用風冷設(shè)計,基于 NVIDIA MGX 平臺實現(xiàn)單節(jié)點 2 塊 B200 GPU,適用于對散熱要求較高的場景。
GB200 NVL4:為低功耗的單服務器解決方案,集成了 4 個 B200 和 2 個 Grace CPU,總共包含 1.3TB 的一致性內(nèi)存,相比 GH200 NVL4,GPU 整體性能提升 2.2 倍,訓練性能提升 1.8 倍。
GB200 NVL72:擴展為機架規(guī)模,單個機架包含 72 個 B200 芯片全互聯(lián),具備強大的計算能力和高速的互聯(lián)網(wǎng)絡,適用于大規(guī)模的 AI 訓練和推理任務。
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。