美國加利福尼亞州10月10日,AMD Advancing AI 2024在舊金山Moscone Center舉行,這是當?shù)刈畲蟮臅h和展覽綜合體。AMD當天的活動,數(shù)百名開發(fā)者到達現(xiàn)場參加,<與非網(wǎng)>及國內幾家行業(yè)媒體受邀參加了這次活動。
這是AMD今年在AI領域非常重要的一次發(fā)布,特別是面向數(shù)據(jù)中心,CPU、GPU、網(wǎng)絡技術這三大方向的最新進展,堪稱是AMD的里程碑式突破,為AMD在數(shù)據(jù)中心下一階段的發(fā)展打下堅實基礎。
1530億晶體管、HBM3E內存,性能怪獸AMD Instinct MI325X來襲
AMD于去年12月推出了Instinct MI300X加速器,這是AMD歷史上銷售業(yè)績表現(xiàn)增速驚人的產品,不到兩個季度內,銷售額就超過了10億美元。此外,業(yè)界普遍認為這是首個真正能與NVIDIA在AI加速領域競爭,甚至實現(xiàn)了性能趕超的產品。
今年7月,AMD 2024年Q2財報發(fā)布后,AMD董事會主席及首席執(zhí)行官Lisa Su博士強調,客戶對于Instinct系列和ROCm的路線圖反響積極,AMD很滿意目前在GPU領域的發(fā)展勢頭。預計數(shù)據(jù)中心GPU收入在2024年將超過45億美元,高于4月份預期的40億美元。
Advancing AI 2024上,AMD推出了下一代Instinct MI325X。它采用了和上一代MI300X同樣的CDNA 3架構,配備了256GB HBM3E內存,能夠實現(xiàn)6TB/秒的本地內存帶寬。
根據(jù)AMD公布的數(shù)據(jù),Instinct MI325X的容量比NVIDIA H200增加 1.8 倍,帶寬提升 1.3 倍。與 H200相比,Instinct MI325X 在 FP16 和 FP8 的峰值理論計算性能上分別提升了 1.3 倍、2.6倍。從這些數(shù)據(jù)來看,Instinct MI325X在基礎模型訓練、微調和推理方面將達到更高性能,有助于用戶在系統(tǒng)、機架和數(shù)據(jù)中心級別創(chuàng)建更高性能的AI 解決方案。
相較于H200,MI325X在運行Mixtral 8x7B 時可提供 1.4 倍的推理性能(FP16),運行Mistral 7B時可提供1.3 倍的推理性能(FP16),運行Llama 3.1 70B 時可提供 1.2 倍的推理性能(FP8)。
AMD的CDNA3架構已經(jīng)在MI300系列中得到了驗證,它在性能、效率和可編程性都達到了新的高度,通過采用3D封裝技術,它重新分配了處理器中的計算、內存和通信元素,形成了異構封裝。這種對物理實現(xiàn)的全新設計,幫助AMD顯著提升計算和存儲等關鍵能力。
AMD Instinct MI325X預計于今年Q4開始生產出貨,并預計在 2025 年Q1,包括 Dell Technologies、Eviden、Gigabyte、Hewlett Packard Enterprise、Lenovo、Supermicro 等多家平臺供應商將會廣泛提供相應的產品。
此外,Instinct未來兩年的產品路線圖也在此次大會上予以公布,基于CDNA 4的MI350系列或將于2025年下半年發(fā)布,它將繼續(xù)在內存容量方面保持領先,每個加速器可支持高達 288GB 的 HBM3E 內存,同時也將會比基于CDNA 3的加速器實現(xiàn)35倍的推理性能提升。2026年,更具雄心的MI400系列或將推出,該系列將會基于CDNA“下一代”架構。
構建生成式AI所需的網(wǎng)絡能力:Pensando Salina DPU+ Pensando Pollara 400
應對生成式AI所帶來的大規(guī)模計算集群的顯著增長趨勢,超大規(guī)模數(shù)據(jù)中心的網(wǎng)絡能力越來越成為計算性能提升的關鍵。AMD正在通過可編程DPU提供下一代AI網(wǎng)絡支持。該網(wǎng)絡主要包括兩部分:前端負責向AI集群傳遞數(shù)據(jù)和信息,后端則管理加速器與集群之間的數(shù)據(jù)傳輸。
為了有效管理這兩部分網(wǎng)絡,并在整個系統(tǒng)中實現(xiàn)高性能、可擴展性和高效率,AMD推出了Pensando Salina DPU作為前端,以及行業(yè)首款符合超以太網(wǎng)聯(lián)盟(UEC)標準的AI網(wǎng)絡接口卡(NIC)——Pensando Pollara 400作為后端。
Pensando Salina DPU是AMD可編程DPU的第三代產品,相比上一代,其性能、帶寬和擴展性提高了2倍,支持400G吞吐量??蓪崿F(xiàn)快速數(shù)據(jù)傳輸?shù)腜ensando Salina DPU在AI前端網(wǎng)絡集群中至關重要,優(yōu)化了數(shù)據(jù)驅動AI應用的性能、效率、安全性和可擴展性。
Pensando Pollara 400搭載了AMD P4可編程引擎,是行業(yè)首款符合UEC標準的AI NIC。它支持下一代RDMA軟件,并由開放的網(wǎng)絡生態(tài)系統(tǒng)支持,能夠在后端網(wǎng)絡中對加速器之間的通信提供了領先的性能、可擴展性和效率。
成立于去年夏天的UEC在迅速壯大,目前已經(jīng)超過97家成員。該聯(lián)盟致力于構建基于以太網(wǎng)的統(tǒng)一通信堆棧,以支持AI和HPC數(shù)據(jù)中心的高性能網(wǎng)絡連接需求。該聯(lián)盟的技術目標包括開發(fā)超以太網(wǎng)通信的規(guī)范、API 和源代碼,更新現(xiàn)有協(xié)議,以及引入用于遙測、信令、安全和擁塞管理的新機制。
基于這些實現(xiàn)方式,UEC希望為業(yè)界在NVIDIA InfiniBand之外提供一種新的選擇。根據(jù)AMD最新公布的數(shù)據(jù),以太網(wǎng)RoCEv2方案比NVIDIA InfiniBand可實現(xiàn)50%的TCO降低;在更大規(guī)模的GPU集群連接方面,靈活性也極大提升,比起Infiniband最多4.8萬個GPU,以太網(wǎng)RoCEv2方案可支持超過100萬個GPU。
今年Q4,Pensando Salina DPU和Pensando Pollara 400將與客戶進行樣品測試,預計在2025年上半年正式上市。
第五代AMD EPYC亮點密集:3/4nm、192核、5GHz頻率
根據(jù)最新的Mercury研究報告,AMD目前擁有34%的服務器CPU份額,達到了AMD史上新高。Lisa Su強調,AMD已經(jīng)在數(shù)據(jù)中心基礎設施領域形成了深厚積淀,CPU一直在穩(wěn)健增長。經(jīng)過五代產品的更迭,如今,AMD EPYC CPU正在驅動下一個創(chuàng)新浪潮,更高效地為數(shù)據(jù)中心和IT環(huán)境創(chuàng)造價值。
第五代AMD EPYC處理器代號Turin,采用Zen 5架構,兼容廣泛部署的SP5平臺,核心數(shù)量范圍從8核最多可到192核。相比于Zen 4,Zen 5架構在企業(yè)和云工作負載中,可提供最高17%的IPC提升,而在AI和高性能計算(HPC)中IPC提升可達37%。
在前幾代的基礎上,AMD EPYC 9005系列處理器進一步提升了性能和能效,最高配置的192核CPU,性能相比競爭對手提升高達2.7倍。其主要特性包括:
- 每個CPU提供8至最多192的核心數(shù)量選擇,采用“Zen 5”和“Zen 5c”核心架構
- 每個CPU支持12個通道的DDR5內存
- 支持最高DDR5-6400 MT/s
- 領先的加速頻率高達5GHz
- 支持AVX-512,具有完整的512b數(shù)據(jù)通道
- 可信的I/O用于保密計算,系列中每個部件均在進行FIPS認證
該系列的64核的AMD EPYC 9575F專為需要強大主機CPU能力的GPU驅動AI解決方案量身打造,可提供最高5GHz的頻率,相較于競爭對手3.8GHz的處理器,處理速度提升28%。并且,可助力1000節(jié)點的AI集群每秒處理多達70萬token,更高效地完成更多任務。
采用AMD EPYC 9575F和MI300X的方案,與Intel 至強8592+和MI300X的方案相比,訓練和推理性能分別可實現(xiàn)20%和8%的提升。
采用AMD EPYC 9575F和NVIDIA H100的方案,與Intel 至強8592+和NVIDIA H100的方案相比,訓練和推理性能分別可實現(xiàn)15%和20%的提升。
根據(jù)AMD公布的最新資料,第五代AMD EPYC處理器在商業(yè)IT的各種服務器工作負載方面優(yōu)勢也在提升。使用基于AMD EPYC 9965處理器的服務器,與基于Intel Xeon 8592+ CPU的服務器相比,有如下優(yōu)勢:
- 在視頻轉碼等業(yè)務應用中,結果生成時間提高最多4倍。
- 在解決全球最具挑戰(zhàn)性問題的科學和HPC應用中,洞察時間提高最多3.9倍。
- 在虛擬化基礎設施中,每核性能提高最多1.6倍。
除了在通用工作負載中的性能和效率提升外,第五代AMD EPYC處理器還能夠快速實現(xiàn)AI部署,無論是運行CPU還是CPU+GPU解決方案。與競爭對手相比,192核EPYC 9965 CPU在端到端AI工作負載(如TPCx-AI)上,性能提高最多3.7倍,這對推動高效的生成式AI方法至關重要。在中小型企業(yè)級生成式AI模型(如Meta的Llama 3.1-8B)中,EPYC 9965的吞吐量性能提高1.9倍。
第五代AMD EPYC處理器的全系列產品現(xiàn)已上市,得到了Cisco、Dell、Hewlett Packard Enterprise、Lenovo和Supermicro以及所有主要ODM和云服務提供商的支持。通過采用這些新處理器,客戶可在現(xiàn)代化數(shù)據(jù)中心,實現(xiàn)391,000個SPECrate @2017_int_base通用計算性能,獲得出色的多種工作負載性能,同時估計可節(jié)省71%的功耗和約87%的服務器數(shù)量。
AMD端到端AI布局全面強大
通過全面的布局,AMD端到端的AI布局已經(jīng)全面成型且逐漸強大。
除了面向數(shù)據(jù)中心的產品發(fā)布,AMD還在這次大會上推出了最新的銳龍 AI PRO 300系列商用移動處理器,這也是其適用于AI PC的第三代商用處理器,可為Windows Copilot+PC提供最高至55 TOPs AI算力的處理能力,這一出色性能也使得該處理器成為了行業(yè)新標桿。
正如Lisa Su在會上所說,接下來的十年,AI還會帶來很多全新的體驗,計算會成為生活中更重要的一部分。一直以來,AMD在硬件上花了很多時間,而這才是提供AI完整路線圖的根本所在。如今,縱觀AMD的整個投資組合,全面的硬件產品線、開放的軟件生態(tài)等等,正在推動AMD成為端到端的AI領導者,打造更為有力的AI基礎設施解決方案。