成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

挑戰(zhàn)英偉達,索尼AFEELA里的高通數(shù)字底盤

2024/01/15
2045
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2024年CES展上,索尼用自家的PS5游戲機遙控原型車AFEELA登臺頗為驚艷,預(yù)計AFEELA在2025年上市,起售價約為45000美元,首選發(fā)售地據(jù)悉是北美。AFEELA是高通數(shù)字底盤的典型代表。

AFEELA具備800TOPS的算力。

圖片來源:SHM

圖片來源:SHM

AFEELA顯然是采用了兩套Snapdragon Ride級聯(lián),推測SoC是高通的SA8650,加速器是基于Cloud AI 100 Ultra的車載版。

AFEELA的AD/ADAS架構(gòu)

圖片來源:SHM

上圖是AFEELA的AD/ADAS架構(gòu),不要質(zhì)疑CNN做感知,即便是2000TOPS的英偉達也支撐不起全Transformer,車載感知的Backbone網(wǎng)絡(luò)還是基于CNN的,包括特斯拉,特斯拉是Regnet。只有Head才能用得上Transformer,這里的環(huán)境模型基本可等同于BEV加占用網(wǎng)絡(luò)。全Transformer估計得用8張英偉達H200顯卡,價格是整車的好幾倍了。

SA8650之前筆者已介紹過,高通第一代Snapdragon Ride即SA8540P+SA9000P似乎是過渡產(chǎn)品,SA8540P和高通的SA8295P幾乎完全一致,與高通筆記本電腦領(lǐng)域的8cx Gen3即SC8280P也幾乎完全一致。

高通自動駕駛一直在英偉達和Mobileye的夾縫中,英偉達憑借超高性能幾乎壟斷高端市場,而Mobileye以40-70美元的超低價格壟斷中低端市場。對大部分廠家,包括保時捷這樣的高端品牌,對自動駕駛都缺乏興趣和重視度,自動駕駛是可有可無,錦上添花的配置,只有Mobileye不到100美元的芯片能滿足這些廠家的成本需求,Mobileye牢牢占據(jù)全球70%的智能駕駛芯片市場,地位穩(wěn)如泰山,短期的客戶庫存調(diào)整不會影響Mobileye的未來。高通無意與Mobileye競爭,可能是利潤太微薄,高通主要競爭對手就是英偉達,但高通主要市場還是手機,技術(shù)核心還在手機上,所以高通的AI加速器是分離的,高通主打的是低功耗和高性價比。

今天我們主要來看高通AI加速器的新產(chǎn)品,即AI 100 Ultra,這是高通2023年11月底推出的產(chǎn)品,就是要挑戰(zhàn)英偉達的H100,高通號稱單張AI 100 Ultra可以對應(yīng)1000億參數(shù)的大模型,兩張可以對應(yīng)1750億參數(shù)的ChatGPT 3,功耗和價格遠低于英偉達的H100,惠普和聯(lián)想已經(jīng)有基于AI 100 Ultra的服務(wù)器銷售。

上表是高通2020年9月推出AI 100的各個版本的性能表現(xiàn)。高通目前只有這兩款A(yù)I加速器,車載的AI加速器毫無疑問是基于AI 100設(shè)計的。

從參數(shù)上看,當然無法和英偉達H100相提并論,并且H100主打的是FP16精度,高通主打的是INT8精度,高通主要的信心來自其軟件優(yōu)化,即Polyhedral Mapper。

特色主要是核心/線程的并行性,明確的數(shù)據(jù)傳輸,以及SIMD的并行性。

上圖是一個具體的BERT優(yōu)化。

主要的挑戰(zhàn)一是如何讓核心、線程和矢量單元都處于最大利用狀態(tài),二是如何利用好本地內(nèi)存,而不是外部昂貴的HBM內(nèi)存,三是減少數(shù)據(jù)搬運。

高通AI加速器架構(gòu)

高通AI 100內(nèi)核

高通AI 100內(nèi)核是16個,AI 100 Ultra是64個,不過考慮到功耗,性能沒有增加4倍。

每個AI核心內(nèi)部架構(gòu)

大多數(shù)車載AI加速器只有張量Tensor計算單元,且只有INT8,高通的不僅包括張量還有標量Scalar和矢量Vector單元。張量分INT8和FP16兩種,INT8有8192個MAC,F(xiàn)P16有4096個MAC。標量與矢量單元都是VLIW指令集,跟高通手機芯片中的DSP完全一致。

每核心有1MB的L2緩存,有8MB的VTCM存儲,所謂VTCM是Vector Tightly-Coupled Memory緊耦合矢量存儲,合計每個AI核心有9MB的SRAM,64個內(nèi)核就是576MB的SRAM,SRAM的成本每MB約5美元,也就是2880美元,AI 100 Ultra至少一半以上的die size是SRAM,一半以上的成本也來自SRAM,估計AI 100 Ultra售價是6000美元左右。

矢量計算需要頻繁搬運數(shù)據(jù),特別是矢量矩陣運算,Transformer里主要延遲都來自矢量矩陣運算。

上圖是三星對GPT大模型workload分析,在運算操作數(shù)量上,GEMV矩陣矢量乘法所占的比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM矩陣通用乘法所占僅為2.12%,非線性運算也就是神經(jīng)元激活部分占的比例也遠高于GEMM。

上圖是三星對GPU利用率的分析,可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數(shù)據(jù)的搬運。所以芯片內(nèi)部的TCAM非常有必要,其效果要比芯片外部的HBM更好,缺點是容量遠不能和HBM比,用于訓(xùn)練和汽車級模型推理比較好。

AI 100 Ultra的存儲系統(tǒng)升級不少,從原來的137GB/s升級至576GB/s,但還是用了老舊的LPDDR4,實際就是內(nèi)存控制器增加到了4路,每路128bit,合計512bit。接口方面,PCIe提升到第四代,Lane增加到16。

AI加速器硬件似乎已走到了盡頭,能做文章的只有存儲部分和制造工藝,更先進的制造工藝容納更多的計算單元,更高bit的內(nèi)存控制器增加存儲帶寬或者升級HBM,像英偉達的H200,只是存儲部分更換成了HBM3,其余與H100完全一致。

免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
H3LIS331DLTR 1 STMicroelectronics Low power High-g 3-axis accelerometer, SPI/I2C digital output MEMS motion sensor, user-selectable full scales of ±100g/±200g/±400g

ECAD模型

下載ECAD模型
$14.28 查看
A3981KLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, PDSO28, 9.70 X 4.40 MM, 1.20 MM HEIGHT, LEAD FREE, MO-153AET, TSSOP-28

ECAD模型

下載ECAD模型
$3.2 查看
AD8361ARMZ-REEL7 1 Analog Devices Inc LF to 2.5 GHz TruPwr™ Detector

ECAD模型

下載ECAD模型
$9.9 查看
索尼

索尼

索尼(Sony)在中國網(wǎng)站,全面介紹Sony公司的各項業(yè)務(wù).提供豐富的產(chǎn)品信息,包括數(shù)碼相機,攝像機,筆記本電腦,電視系列,影音產(chǎn)品等以及售后服務(wù)和購買服務(wù)

索尼(Sony)在中國網(wǎng)站,全面介紹Sony公司的各項業(yè)務(wù).提供豐富的產(chǎn)品信息,包括數(shù)碼相機,攝像機,筆記本電腦,電視系列,影音產(chǎn)品等以及售后服務(wù)和購買服務(wù)收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄
巴里| 余干县| 安国市| 常德市| 白银市| 安远县| 库伦旗| 博白县| 交城县| 丰顺县| 资溪县| 夏河县| 如东县| 麻江县| 东台市| 百色市| 剑川县| 日照市| 江门市| 临西县| 新蔡县| 望城县| 广州市| 吴川市| 界首市| 会昌县| 临洮县| 桓仁| 彭阳县| 康保县| 都昌县| 泰州市| 泗阳县| 黄石市| 乐清市| 侯马市| 库车县| 古田县| 马尔康县| 集贤县| 恩平市|