成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
    • 大模型落地端側(cè),GPGPU不是最好的方案
    • 誰是端側(cè)大模型的最佳載體?
    • 計算單元已經(jīng)不再是AI芯片的最大瓶頸
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

端側(cè)AI,如何做到普惠、好用?

原創(chuàng)
2024/07/16
1840
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

AI大潮洶涌澎湃,大模型要真正落地,一定是云、邊、端的三級結(jié)合。與此同時,人工智能正在走向萬物智能,受到實時響應需求的影響,車載大模型或成為落地最快的板塊之一?!?愛芯元智創(chuàng)始人、董事長仇肖莘在2024 WAIC上如是說。

圖 | 愛芯元智參展2024 WAIC ,來源:愛芯元智

大模型落地端側(cè),GPGPU不是最好的方案

根據(jù)市場調(diào)研數(shù)據(jù)顯示,2023年我國人工智能核心產(chǎn)業(yè)規(guī)模為5784億元,增速達到13.9%。

隨著AI模型的發(fā)展趨于成熟,AI基礎(chǔ)設(shè)施建設(shè)變得越來越重要?;诖?,仇肖莘得出結(jié)論,在大模型時代,更經(jīng)濟、更高效、更環(huán)保將成為AI基礎(chǔ)設(shè)施的關(guān)鍵詞。

圖 | 愛芯元智創(chuàng)始人、董事長仇肖莘,來源:愛芯元智

下潛到芯片層面,如何讓大模型在AI芯片中跑得更快,如何讓大模型實現(xiàn)更好的調(diào)優(yōu),是目前人工智能要解決的落地難題,更經(jīng)濟的AI專用芯片將成為必然。

而正是有這樣的趨勢推動,我們觀察到,美國、以色列等國家已經(jīng)好多年沒有出現(xiàn)新的AI創(chuàng)業(yè)公司,但今年卻出現(xiàn)了很多家,這是因為當大模型落地邊側(cè),原來的架構(gòu)可能已經(jīng)不再適用。“具體來講,當基礎(chǔ)網(wǎng)絡架構(gòu)還不穩(wěn)定時,GPGPU存在靈活性優(yōu)勢,但過去10年中,卷積網(wǎng)絡的基礎(chǔ)架構(gòu)已經(jīng)趨于穩(wěn)定,包括算子的固定,大多已經(jīng)進入微調(diào)和調(diào)優(yōu)階段,所以在端側(cè)GPGPU不是最好的方案,DSA架構(gòu)(Domain Specific Architecture,特定領(lǐng)域架構(gòu))下的AI芯片更具能效優(yōu)勢”,仇肖莘表示。

據(jù)悉,NPU通常采用DSA架構(gòu),DSA架構(gòu)下的NPU通過模仿生物神經(jīng)網(wǎng)絡構(gòu)建,可以在電路層實現(xiàn)存儲和計算一體化,提高運行效率。

對此,愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉表示:“我們不能把NPU當做加速起來使用,否則就不能適應網(wǎng)絡架構(gòu)的變化,也不是擴展指令集,否則就不能把能量消耗最大比例的放在Tensor計算上,NPU應該是一個AI原生處理器?!?/p>

圖 | 愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉,來源:愛芯元智

劉建偉以愛芯通元AI處理器為例,進一步補充道:“愛芯通元AI處理器的核心是算子指令集和數(shù)據(jù)流微架構(gòu)。其底層采用了可編程數(shù)據(jù)流的微架構(gòu),來提高能效和算力密度。同時它的靈活性也保證了算子指令集的完備性,支撐各種AI的應用。而其成熟的軟件工具鏈可以讓開發(fā)者快速上手。此外,軟硬件的聯(lián)合設(shè)計也保證了愛芯通元AI處理器的高速迭代和競爭力。愛芯通元AI處理器很大程度降低了AI應用的開發(fā)及運維成本,讓AI智能更經(jīng)濟、更高效、更環(huán)保。”

誰是端側(cè)大模型的最佳載體?

當大模型落地邊緣側(cè)和端側(cè),行業(yè)內(nèi)猜測AI手機、AI PC、汽車等應用場景或成為首批試點。對于AI手機、AI PC來說,因為與當前AI大模型的應用場景覆蓋度較高,且潛在市場體量較大,被寄希望于成為“大模型的最佳載體”。而對于汽車來說,雖然當前銷量可能面臨瓶頸,但智能化的滲透率還在繼續(xù)。

以手機行業(yè)為例,今年全球各大手機廠家紛紛推出了跑在終端的“大模型”版本,比如Google的Gemini-nano(1.8B)、vivo的藍星大模型(1B)、以及國內(nèi)“小鋼炮”MiniCPM(1B)等。此外,蘋果公司在2024年全球開發(fā)者大會上對外披露了自研模型OpenELM,其參數(shù)量約為3B,在iPhone 15 Pro上的處理速度可以達到每秒生成30個token,初始響應延遲約0.6毫秒。

根據(jù)蘋果的測試結(jié)果,這個3B級別的端側(cè)小模型在性能上足以比肩主流的7B級別模型的能力,而云端模型的效果甚至可以與GPT-4 Turbo級別相媲美。

對此,愛芯元智創(chuàng)始人、董事長仇肖莘表示:“蘋果在手機上跑3B的模型,如果能落地應用,那么3-7B基本能滿足當下手機市場的需求?!?/p>

“此外,手機算力不夠,當前需要外掛協(xié)處理器,但成本會上升,未來手機的SoC中一定會集成NPU,但我們應思考的是,集成多大的NPU,才能平衡算力要求和成本問題。當前國內(nèi)已經(jīng)有很多廠商和愛芯元智在接觸并討論關(guān)于NPU IP集成的合作?!?仇肖莘補充道。

值得一提的是,由于這些模型的參數(shù)規(guī)模與當前以GPT4為代表的云端大模型參數(shù)規(guī)模相差多個數(shù)量級,因此也被稱為“小模型”。

用劉建偉的話來說,端側(cè)跑小模型基本夠了,邊緣側(cè)跑多模態(tài)的大模型。

計算單元已經(jīng)不再是AI芯片的最大瓶頸

邊緣計算和端側(cè)設(shè)備的應用場景中,與云端計算的集中處理模式不同,它們更強調(diào)感知與計算的緊密結(jié)合。因此,對于邊、端兩側(cè),計算單元已經(jīng)不再是AI芯片的最大瓶頸,當前最大的挑戰(zhàn)是在DDR和I/O側(cè),所以如何節(jié)省帶寬、節(jié)省存儲成為新的挑戰(zhàn),為此對混合精度的需求增加,比如我們看到英偉達也從原來的FP8、FP16轉(zhuǎn)變到開始支持INT4。

事實上,在人工智能網(wǎng)絡的實際應用中,經(jīng)常存在信息冗余現(xiàn)象,這表明在深度學習模型的許多部分,并不總是需要高精度的浮點數(shù),如32比特或16比特的計算。通過采用低精度的數(shù)據(jù)表示,例如8比特整數(shù)(INT8)或4比特整數(shù)(INT4),可以顯著減少模型的計算負擔和內(nèi)存需求,同時仍然保持可接受的準確性水平。

圖 | 神經(jīng)網(wǎng)絡示意圖(簡化版),來源:愛芯元智

據(jù)悉,在愛芯元智的AI-ISP應用中,就是基于混合精度的,網(wǎng)絡中許多中間層都是采用INT4精度。相比原來的8比特網(wǎng)絡,數(shù)據(jù)搬運量可能就變成原來的1/4。由此便可以提升NPU的使用率和效率,在單位面積內(nèi)提供數(shù)倍于傳統(tǒng)NPU的等效算力,同時還能把成本和功耗降下來,更有利于端側(cè)和邊緣側(cè)AI地落地。

當然,在AI落地的過程中,除了要解決內(nèi)存墻和功耗墻問題以外,還需要考慮算法和硬件的結(jié)合問題。尤其是在端側(cè)和邊緣側(cè),芯片天生就和場景有一種弱耦合的關(guān)系,所以愛芯元智在設(shè)計AI視覺芯片時,采用了從應用到算法再到NPU的聯(lián)合優(yōu)化設(shè)計。

我們看到,今年4月,愛芯元智AX650N已經(jīng)第一時間完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等國內(nèi)外主流的開源大語言模型適配,而完成這些適配的前提,正式AX650N原生支持transformer,并完成了現(xiàn)有NPU工具鏈針對大語言模型的支持和調(diào)優(yōu)。

此外,近期我們看到愛芯通元V4(AX630C)已經(jīng)跑通了通義千問(Qwen2.0),這個僅百元左右的模組,就能跑通義千問0.5B的模型,并解決生活中端側(cè)的一些問題,這意味著大模型在人機交互方面落地已經(jīng)成為可能。

寫在最后

仇肖莘在2024 WAIC上表達了一個愿景:“讓黑光全彩相機,布滿田間地頭,讓每一分駕駛需求,都享受AI的服務,高效AI處理器,令邊緣智能觸手可及?!?/p>

圖 | 愛芯元智生態(tài)展示,來源:愛芯元智

然而,摩爾定律放緩,每個晶體管的價格已經(jīng)不再下降,所以在硬件上一定要做減法,來降低硬件成本和軟件開發(fā)的難度,這有這樣才能實現(xiàn)AI普惠。而愛芯元智的策略是通過平臺技術(shù)來均攤成本,最終實現(xiàn)降本增效,惠利更多客戶。

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA128A3U-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP
$5.3 查看
AT32UC3A0512-ALUR 1 Atmel Corporation RISC Microcontroller, 32-Bit, FLASH, AVR RISC CPU, 66MHz, CMOS, PQFP144, MS-026, LQFP-144
$14.01 查看
ATXMEGA128A4U-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP
$5.49 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄
武鸣县| 淮南市| 江川县| 萍乡市| 天台县| 衡山县| 红原县| 息烽县| 磴口县| 临泉县| 柳州市| 景谷| 扎囊县| 神木县| 油尖旺区| 建湖县| 自治县| 水富县| 寻甸| 佛山市| 广西| 荔浦县| 抚州市| 望谟县| 和林格尔县| 杂多县| 资阳市| 河源市| 乐东| 武功县| 雅安市| 巨鹿县| 门源| 子洲县| 嘉荫县| 台中县| 潞城市| 卓尼县| 昭通市| 茶陵县| 米脂县|