作者:九林
ASIC市場(chǎng)在增長。
這一點(diǎn)早已達(dá)成業(yè)內(nèi)共識(shí)。但令人意外的是,ASIC增長的速度實(shí)在是太快了。摩根士丹利預(yù)計(jì),AI ASIC市場(chǎng)規(guī)模將從2024年的120億美元增長至2027年的300億美元,年復(fù)合增長率達(dá)到34%。
要知道2023年—2029年,高性能計(jì)算GPU市場(chǎng)的年復(fù)合增長率是25%,而CPU和APU的增長率僅為5%和8%。
01、ASIC市場(chǎng),蛋糕膨脹
TrendForce的最新研究報(bào)告指出,隨著人工智能服務(wù)器需求的迅猛增長,美國主要的云計(jì)算服務(wù)提供商(CSP)正加快內(nèi)部開發(fā)專用集成電路(ASIC)芯片的步伐,平均每1至2年便推出新一代產(chǎn)品。在中國,人工智能服務(wù)器市場(chǎng)正逐步適應(yīng)美國自2025年4月起實(shí)施的新出口管制政策。據(jù)預(yù)測(cè),這些措施將導(dǎo)致2025年進(jìn)口芯片(如NVIDIA和AMD產(chǎn)品)的市場(chǎng)份額從2024年的63%下降至約42%。
與此同時(shí),在政府積極推動(dòng)國產(chǎn)人工智能處理器的政策扶持下,預(yù)計(jì)中國本土芯片制造商的市場(chǎng)份額將提升至40%,與進(jìn)口芯片的市場(chǎng)份額幾乎持平。
定制芯片是一種經(jīng)濟(jì)選擇,而不是技術(shù)選擇。ASIC蛋糕增長最重要的驅(qū)動(dòng)力只有一個(gè):錢。
從當(dāng)前來看,GPU服務(wù)器依然是最終用戶的首要選擇,但由于部分GPU產(chǎn)品受供應(yīng)的限制,導(dǎo)致出現(xiàn)了算力缺口。很多頭部的互聯(lián)網(wǎng)企業(yè),為了降低成本以及更好地適配自身業(yè)務(wù)場(chǎng)景,也增大了自研ASIC芯片服務(wù)器的部署數(shù)量。
比如在同等預(yù)算下,AWS的Trainium 2(ASIC芯片)可以比英偉達(dá)的H100 GPU更快速完成推理任務(wù),且性價(jià)比提高了30%~40%。明年計(jì)劃推出的Trainium3,計(jì)算性能更是提高了2倍,能效提高40%。
云解決方案提供商正在優(yōu)先考慮?ASIC 開發(fā),以減少對(duì) NVIDIA 和 AMD 的依賴,更好地控制成本和性能,并增強(qiáng)供應(yīng)鏈靈活性。這種轉(zhuǎn)變對(duì)于管理不斷增長的 AI 工作負(fù)載和優(yōu)化長期運(yùn)營支出至關(guān)重要。
此外,如果芯片可以帶來戰(zhàn)略優(yōu)勢(shì),那么ASIC就是有意義的。蘋果就是一個(gè)很典型的例子,當(dāng)然也有谷歌。
02、ASIC的典型代表:TPU
廠商對(duì)能效比和成本的追求是永無止境的,國外大廠中谷歌、亞馬遜、Meta、OpenAI等大型云計(jì)算和大模型廠商均加速布局定制化ASIC。國內(nèi)企業(yè)中寒武紀(jì)、達(dá)摩院、百度、騰訊等都在推出自己的ASIC芯片。
市場(chǎng)主流的ASIC芯片有TPU、NPU、VPU芯片。
谷歌的TPU作為ASIC已經(jīng)非常典型的代表了。這是谷歌在2016年推出的首款產(chǎn)品,目標(biāo)是為了高效地處理張量運(yùn)算。
最新的TPU在今年4月發(fā)布,谷歌已經(jīng)推出了第七代張量處理單元(TPU)Ironwood。谷歌稱,在大規(guī)模部署的情況下,這款 AI 加速器的計(jì)算能力能達(dá)到全球最快超級(jí)計(jì)算機(jī)的24倍以上。
Ironwood 擁有超模的技術(shù)規(guī)格,當(dāng)每個(gè) pod 擴(kuò)展至 9216 塊芯片時(shí),它可提供 42.5 exaflops 的 AI 算力,遠(yuǎn)超目前全球最快的超級(jí)計(jì)算機(jī) El Capitan 的 1.7 exaflops。每塊 Ironwood 芯片的峰值計(jì)算能力可達(dá) 4614 TFLOPs。
在單芯片規(guī)格上,Ironwood 顯著提升了內(nèi)存和帶寬,每塊芯片配備 192GB 高帶寬內(nèi)存(HBM),是去年發(fā)布的上一代 TPU Trillium 的六倍。每塊芯片的內(nèi)存帶寬達(dá)到 7.2 terabits/s,是 Trillium 的 4.5 倍。
目前,TPU芯片已經(jīng)成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商,據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬~300萬片之間。
國內(nèi)這邊布局TPU芯片的企業(yè)是中昊芯英。創(chuàng)始人楊龔軼凡曾在谷歌TPU核心研發(fā)團(tuán)隊(duì)參與過TPU v2/3/4的設(shè)計(jì)與研發(fā)工作。
2024年,中昊芯英創(chuàng)始人及CEO就曾對(duì)外透露,2023年中昊芯英成功實(shí)現(xiàn)了全自研的專為AI訓(xùn)練而生的中國首枚高性能TPU訓(xùn)練芯片“剎那”的量產(chǎn)交付。
據(jù)悉,“剎那”作為一款全自研的GPTPU架構(gòu)AI訓(xùn)練芯片,擁有完全自主可控的 IP 核、全自研指令集與計(jì)算平臺(tái)。在處理大規(guī)模 AI 模型訓(xùn)練和推理任務(wù)時(shí),“剎那”的計(jì)算性能超越英偉達(dá) A100,系統(tǒng)集群性能更是十倍于傳統(tǒng) GPU,在完成相同訓(xùn)練任務(wù)量時(shí)的能耗僅是傳統(tǒng) GPU 的一半。相比國外產(chǎn)品,“剎那”芯片的單位算力成本僅為其42%。
03、ASIC,競(jìng)爭(zhēng)不斷
在ASIC市場(chǎng),目前博通以55%~60%的份額位居第一,Marvell以13%~15%的份額位列第二。
博通在AI芯片領(lǐng)域的核心優(yōu)勢(shì)在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、HPC(高性能計(jì)算)和5G基礎(chǔ)設(shè)施等領(lǐng)域。
最新的財(cái)報(bào)來看,博通2025財(cái)年第一季度財(cái)報(bào)顯示,其營收達(dá)149.16億美元,同比增長25%;非GAAP凈利潤78.23億美元,同比激增49%。其中,AI相關(guān)收入41億美元,同比增長77%,占總營收的28%,在半導(dǎo)體業(yè)務(wù)中占比更高達(dá)50%。
博通的ASIC芯片業(yè)務(wù)已成為其核心增長點(diǎn)。財(cái)報(bào)披露,定制AI芯片(ASIC)銷售額預(yù)計(jì)占第二季度總AI半導(dǎo)體收入的70%,達(dá)308億美元(約合450億美元)。
博通有兩個(gè)大合作備受關(guān)注:第一是Meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器,目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā),預(yù)計(jì)2024年下半年至2025年將取得重要進(jìn)展。
第二是OpenAI已委托博通開發(fā)兩代ASIC芯片項(xiàng)目,計(jì)劃于2026年投產(chǎn),將采用業(yè)界領(lǐng)先的3nm/2nm制程工藝并搭配3D SOIC先進(jìn)封裝技術(shù)。與此同時(shí),雖然蘋果目前仍在使用谷歌TPU,但其自研AI芯片項(xiàng)目已在積極推進(jìn)中。
Marvell的定制芯片(ASIC)業(yè)務(wù)正成為其強(qiáng)勁增長的核心動(dòng)力之一。Marvell的具體業(yè)務(wù)中,數(shù)據(jù)中心業(yè)務(wù)占據(jù)75%左右,屬于高成長業(yè)務(wù)。這部分業(yè)務(wù)包括SSD 控制器、高端以太網(wǎng)交換機(jī)(Innovium)及定制 ASIC 業(yè)務(wù)(亞馬遜 AWS 等定制化芯片),主要應(yīng)用于云服務(wù)器、邊緣計(jì)算等場(chǎng)景。
Marvell 從 2018 年起陸續(xù)收購了 Cavium、Innovium 等公司,從而增強(qiáng)了公司 AISC 及數(shù)據(jù)中心的相關(guān)能力。
最新的財(cái)報(bào)顯示,Marvell 在2026財(cái)年第一季度的數(shù)據(jù)中心業(yè)務(wù)實(shí)現(xiàn)營收 14.4 億美元,環(huán)比增長 5.5%,符合市場(chǎng)預(yù)期(14.4 億美元)。
根據(jù)公司交流及產(chǎn)業(yè)鏈信息推測(cè),Marvell 當(dāng)前的 ASIC 收入主要來自亞馬遜的 Trainium 2 和谷歌的 Axion Arm CPU 處理器,而公司與亞馬遜合作的Inferential ASIC 項(xiàng)目也將在 2025 年(即 2026 財(cái)年)開始量產(chǎn)。公司與微軟合作的 Microsoft Maia 項(xiàng)目,有望在 2026 年(即 2027 財(cái)年)。
但主要指出的是,不同于NVIDIA擁有諸如“主權(quán)AI”、“創(chuàng)業(yè)公司爆發(fā)”等更具吸引力的故事,Marvell的定制AI芯片依然局限于核心CSP(云服務(wù)提供商)的投資節(jié)奏中。
鑒于本季度四大云廠商資本開支整體下滑的趨勢(shì),即使Marvell通過競(jìng)爭(zhēng)贏得了更多市場(chǎng)份額,但市場(chǎng)總量的縮減仍是不可忽視的事實(shí)。
國內(nèi)企業(yè)也在積極研發(fā)ASIC。
寒武紀(jì)科技還在擴(kuò)展其思元(MLU)芯片系列(比如7nm工藝的思元370、訓(xùn)練芯片思元290),以支持云端的AI訓(xùn)練和推理。主要客戶包括:手機(jī)端(華為曾是其大客戶)、智算中心(政府訂單)、服務(wù)器廠商(浪潮、聯(lián)想)等。
同時(shí),國內(nèi)提供云服務(wù)的企業(yè),實(shí)際上也推出了自研的ASIC芯片。
阿里巴巴推出了含光800,作為一款云端AI推理芯片,峰值性能為7.8萬IPS(每秒能處理7.8萬張照片),峰值能效達(dá)到500IPS/W。在當(dāng)時(shí),阿里宣稱是全球最高性能的AI推理芯片,一塊含光800相當(dāng)于10塊GPU。
百度在量產(chǎn)昆侖芯二代后,又在今年宣布百度智能云成功點(diǎn)亮了首個(gè)自研萬卡集群。并且宣布是使用的昆侖芯三代P800。P800顯存規(guī)格優(yōu)于同類主流GPU20%~50%,對(duì)MoE架構(gòu)更加友好,且率先支持8bit推理,單機(jī)8卡即可運(yùn)行671B模型。正因如此,昆侖芯相較同類產(chǎn)品更加易于部署,同時(shí)可顯著降低運(yùn)行成本,輕松完成DeepSeek-V3/R1全版本推理任務(wù)。自研的低成本,使得百度智能云平臺(tái)上,DeepSeek R1和V3的官方價(jià)格直接低至五折和三折,基本實(shí)現(xiàn)全網(wǎng)最低。
騰訊除了自主研發(fā)的紫霄推理芯片外,還通過戰(zhàn)略投資,利用Enflame 的 ASIC 解決方案。據(jù)了解,騰訊自研AI推理芯片“紫霄”,已經(jīng)量產(chǎn)并在多個(gè)頭部業(yè)務(wù)落地,目前在騰訊會(huì)議實(shí)時(shí)字幕上已實(shí)現(xiàn)全量上線,單卡紫霄機(jī)器負(fù)載可達(dá)到T4的4倍,并將超時(shí)率從0.005%降低至0。
04、結(jié)語
ASIC市場(chǎng)的增長,也帶來了新的挑戰(zhàn)。
一個(gè)公司想要節(jié)省幾美元的供應(yīng)商利潤,進(jìn)行芯片自主設(shè)計(jì)。但現(xiàn)在芯片設(shè)計(jì)也并不是一個(gè)廉價(jià)的商品,尤其是先進(jìn)芯片設(shè)計(jì),已經(jīng)變得非常昂貴。
臺(tái)積電2nm每片晶圓約30,000 美元,到了2nm之后的1.4nm成本甚至達(dá)到45,000 美元。
我們需要思考的是,我們真的每個(gè)公司都需要自己的CPU嗎?