2019年3月,特斯拉正式推出第一代FSD芯片,全球累積出貨量大約50-70萬片。2023年初,特斯拉新一代自動駕駛硬件系統(tǒng)HW4.0曝光,新一代FSD芯片也隨之問世,2023年底的Model S/X可能會搭載HW4.0,Model Y則不大可能。
最新曝光的Model Y的座艙域控制器取消了獨立GPU,沒錯,就是那個AMD的算力達10TFLOPS的獨立GPU,存儲也從昂貴的GDDR6換成了最廉價的DDR4,顯然特斯拉很在意成本,即便是頂配版本,昂貴的HW4.0也不大可能出現(xiàn)在Model Y上。
根據(jù)特斯拉爆料大神Greentheonly的信息,我們能夠得到一些HW4FSD芯片的簡要信息。
首先來看CPU或者說NPU之外的部分,初代FSD使用了12個ARM Cortex-A72內(nèi)核,新一代FSD使用了基于三星ExynosIP的內(nèi)核,最初筆者認為仍然是ARM Cortex-A72,因為三星自己研發(fā)CPU架構的行為自2019年中期就停止了,而特斯拉的HW4 FSD是2020年以后的設計。但在深入研究三星最后一代Exynos后,作者認為特斯拉完全有可能照搬三星的設計,因為這個設計非常超前,基本上近似于目前ARM Cortex X系列的旗艦X3的設計。
Exynos 990 CPU拓撲
三星自研Exynos最后一代是Exynos 990,嚴格地說三星自研架構叫貓鼬即Mongoose,Exynos 990的CPU包含兩個M5即貓鼬5內(nèi)核,兩個ARM Cortex-A76內(nèi)核,四個ARM Cortex-A55內(nèi)核。貓鼬第一代于2016年1月的Exynos 8890搭載,之所以叫貓鼬是因為三星當時的競爭對手高通的自研架構代號是Krait即眼鏡蛇科的環(huán)蛇屬,而貓鼬是眼鏡蛇的天敵,以眼鏡蛇為主要食物。不過后來高通成了三星的大客戶,三星也就很少提貓鼬,第五代貓鼬還有個代號叫Lion。
三星M5內(nèi)核微架構
三星M5內(nèi)核最強之處在于其IPC解碼器寬度高達6位,而ARM擠牙膏的做法,直到Cortex-X3才將解碼器寬度提高到6位。
ARM提升性能最有效的做法:
一是增加IPC解碼寬度;
二就是增加緩存Cache容量;
三是提高核心運行頻率。
三星M5雖然逼近ARM Cortex-X3,但其解碼器寬度很寬,因此執(zhí)行引擎的寬度多達11位,但M5的流水線不長,寬度過寬,這就注定其無法提高運行頻率,而手機是強調(diào)單一大核心性能的。對比來看,ARM畢竟是專業(yè)做手機CPU核心架構的,在寬度增加情況下,流水線很長,很容易提高運行頻率,X3最高頻率可以達到4GHz,用在高通驍龍8 Gen2上的X3運行頻率高達3.36GHz,而M5很難超過2.5GHz。這也是三星不再搞自研架構的原因之一。另一個原因在于指令集還是ARM的,ARM的架構運行起來自然更好。
但在汽車領域,M5就很合適,汽車領域是強調(diào)多核性能的,且汽車封閉性強,如特斯拉這樣不打算銷售芯片的廠家,完全可以用RISC-V來自定義指令集,因此基本可以確定特斯拉使用了三星的M5架構,最高運行頻率是2.35GHz,典型運行頻率估計是2GHz。特斯拉可能用12核或16核M5架構,搭配8核或4核Cortex-A72,A72的運行頻率比較低,最低1.37GHz,典型運行頻率估計是1.5GHz。特斯拉的CPU比12核A78的英偉達Orin估計要強15-30%。
第一代FSD芯片就在三星生產(chǎn),三星的代工價格遠低于臺積電,且臺積電產(chǎn)能緊張。特斯拉那一點量對臺積電來說微不足道,臺積電大客戶太多,特斯拉如果去臺積電流片,會被排在很靠后的位置,因為高通、AMD、聯(lián)發(fā)科、博通、蘋果這些臺積電大客戶都是數(shù)以億片的下單量。臺積電的亞利桑那工廠進展緩慢,要到2024年才投產(chǎn),而三星新增的德州奧斯汀晶圓廠就在特斯拉家門口,2022年下半年投產(chǎn),特斯拉沒理由舍近求遠。再加上特斯拉使用三星M5內(nèi)核,讓三星代工更順理成章。不過,三星奧斯汀晶圓廠的5納米工藝還不算太成熟,量產(chǎn)估計要到2023年底。HW4 FSD可能還是會用7納米工藝制造,一來比較成熟,二來比較便宜。
不單是特斯拉采用三星的IP,谷歌手機的自研芯片TENSOR系列也是使用三星IP,當然也在三星代工生產(chǎn),如第一代谷歌手機自研芯片TENSOR G1(谷歌內(nèi)部型號就是三星S5P9845)就照搬了三星Exynos 2100的CPU和GPU設計,自己只做了NPU。G2(內(nèi)部型號就是三星S5P9855)和G3則是照搬了三星的Exynos 2200的CPU設計。未來谷歌旗下的Waymo也會采用三星的IP推出自動駕駛芯片,當然也得在三星代工。
特斯拉HW4 FSD芯片可能也會像三星Exynos990一樣有一個MALI G77內(nèi)核的GPU,算力估計有1GFLOPS。
HW4 FSD芯片的NPU或許是大部分人最關心的,實際CPU重要程度高于NPU,NPU只是輔助角色,CPU才是主角。
第一代FSD的NPU部分拓撲圖
第一代FSD的NPU乏善可陳,中規(guī)中矩,沒什么亮點可言,顯然這是針對傳統(tǒng)CNN設計的NPU,Transformer時代完全不適用。如果特斯拉真要流暢運行Transformer,那么NPU和存儲系統(tǒng)必然要大幅度改進。CNN有98%的運算都是卷積,沒有時間序列,數(shù)據(jù)沒有上下文聯(lián)系,而Transformer模型有不少非卷積運算,包括Relu的矢量和位置的三角函數(shù)運算,數(shù)據(jù)的上下文有聯(lián)系,意味著有可能有分支跳轉,因此NPU必須增加標量運算系統(tǒng)和數(shù)據(jù)流控制系統(tǒng)。HW4.0采用了美光的GDDR6,帶寬達224GB/s,較HW3.0提高了約6.5倍。
在分析或者說推測HW4 FSD的NPU之前,首先看一下特斯拉為自動駕駛數(shù)據(jù)中心推出的DojoD1芯片,再看一下亞馬遜AWS在2022年底推出的,號稱專為Transformer推理而生的芯片Inferentia2。
這是未考慮Transformer模型的第一代亞馬遜推理芯片Inferentia架構,和特斯拉的FSD比添加了標量引擎,特斯拉的可編程SIMD勉強可算矢量引擎。其余二者相差不大。
針對Transformer設計的第二代Inferentia架構(上圖),減少了兩個Neuron內(nèi)核,增加了一個CPU,即Collective compute engine,控制數(shù)據(jù)流和動態(tài)整形,還增加了一個SIMD系統(tǒng),據(jù)亞馬遜說這是一個通用型的DSP。此外,還升級了存儲系統(tǒng),從廉價的DDR4升級到了非常昂貴的HBM。
Dojo D1的架構是一個標準的CPU架構,應對標量計算,具備分支預測和跳轉機制,擁有8位解碼和6路執(zhí)行引擎。
按照特斯拉爆料大神Greentheonly的說法,HW4 FSD芯片是3個NPU,這個NPU應該類似亞馬遜Inferentia里的Neuron核心。一般來說,核心都是對稱平行出現(xiàn),也就是只可能是偶數(shù),不大可能是3個,應該是特斯拉添加了一個CPU,兩個NPU還是和初代FSD芯片一樣,擁有96*96=9216個MAC陣列,算力就很好計算了,9216個陣列,一個MAC包含兩個operation,因此就是9216*2*2.2=40.55TOPS,兩個就是81TOPS,兩片F(xiàn)SD就是162TOPS的AI算力。
添加一個CPU主要是應對Transformer,特斯拉有這方面的技術積累,Dojo的CPU架構完全可以再用一次,再有就是訂制的CPU可以使用自定義的RISC-V指令集而非通常的ARM指令集,這樣效率更高,近似于VLIW。
至于算力,這只是個數(shù)字游戲,單看芯片的算力毫無意義,因為AI算力的瓶頸在內(nèi)存,內(nèi)存的吞吐量或者說帶寬遠低于AI處理器的運算速度,AI處理器的速度再快,算力再高,90%的時間都是在等內(nèi)存搬運數(shù)據(jù)。另一個瓶頸就是CPU,AI處理器是個協(xié)處理器,需要HOST主機做任務分配和調(diào)度,這個HOST一般就是CPU,CPU要足夠強,才能發(fā)揮AI處理器的全部潛力。
服務器芯片領域都是用HBM解決內(nèi)存瓶頸,但汽車領域不行,汽車領域?qū)r格非常敏感,上萬美元的芯片不可能出現(xiàn)在量產(chǎn)車上,汽車領域最多也就是GDDR6。CNN時代,外置CPU足以配合好AI處理器,Transformer時代最好內(nèi)置CPU,這是絕大多數(shù)AI芯片不具備的能力。
英偉達最新最強的DGX-GH200采用的超級芯片中也是自研了CPU,即64核ARM V2,不過效果還是不如放在一個die里。
AMD的MI300則是CPU+GPU的Chiplet設計,比英偉達要好一些。
AMD MI300 DIESHOT,3個CPU內(nèi)核,6個GPU內(nèi)核,8個HBM3
特斯拉的芯片團隊基本都來自AMD,包括在 AMD 工作了近 17 年,研究各種 Opteron 處理器以及命運多舛的“K12”Arm 服務器芯片的Emil Talpes,他在2016年4月加入特斯拉。
Autopilot的硬件架構師Debjit Das Sarma則在AMD工作了14年,也是位CPU架構師,2016年2月加入特斯拉。Douglas Williams在AMD工作了12年,2017年10月加入特斯拉,F(xiàn)SD芯片架構師。Ganesh Venkataramanan也在AMD工作了14年,是CPU設計工程主任,在2016年3月加入特斯拉。Rajiv Kurian則比較年輕,2017年1月加入特斯拉,2018年10月離開,跳槽到Waymo,負責Waymo的硬件加速器設計,2020年11月又跳槽回特斯拉,參與Dojo的設計。Bill Chang則在IBM工作了15年,主要負責工程管理,后跳槽到蘋果,2020年加入特斯拉。
最終,還是要特斯拉公布詳情。
免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。