成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
    • 傳統(tǒng)模塊化系統(tǒng)架構(gòu)與決策機(jī)制
    • 端到端系統(tǒng)架構(gòu)與決策機(jī)制
    • 三種端到端架構(gòu)詳細(xì)解析
    • 模塊化與端到端方案的優(yōu)劣勢(shì)分析
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

一文帶你厘清自動(dòng)駕駛端到端架構(gòu)差異

05/08 11:46
1096
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

 

隨著自動(dòng)駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)到端到端大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測(cè)、規(guī)劃和控制等子任務(wù)拆分開(kāi),分別由不同模塊完成;而端到端大模型則嘗試直接將傳感器輸入映射到車(chē)輛控制指令上,實(shí)現(xiàn)聯(lián)合優(yōu)化。雖同為端到端,在各車(chē)企在設(shè)計(jì)時(shí)卻提出了模塊化端到端、雙系統(tǒng)端到端、單模型端到端等各種技術(shù)架構(gòu),這些端到端架構(gòu)到底有何區(qū)別,相較于基于模塊化的架構(gòu),他們又有何優(yōu)勢(shì)?

傳統(tǒng)模塊化系統(tǒng)架構(gòu)與決策機(jī)制

在聊端到端大模型前,我們還是要先了解下基于模塊化的自動(dòng)駕駛架構(gòu),到底是如何實(shí)現(xiàn)智駕的?;谀K化的自動(dòng)駕駛架構(gòu)通常采用模塊化的流水線結(jié)構(gòu),將環(huán)境感知、行為決策和運(yùn)動(dòng)控制等功能串聯(lián)起來(lái)。在感知階段,系統(tǒng)通過(guò)攝像頭、雷達(dá)、激光雷達(dá)等傳感器進(jìn)行目標(biāo)檢測(cè)、分割和跟蹤;在決策規(guī)劃階段,基于感知結(jié)果和高精度地圖進(jìn)行路徑規(guī)劃與行為決策;最后在控制階段生成具體的加減速、轉(zhuǎn)向等控制指令。

基于模塊化的自動(dòng)駕駛架構(gòu)優(yōu)勢(shì)在于各部分職責(zé)明確,可利用豐富的先驗(yàn)知識(shí)和規(guī)則進(jìn)行設(shè)計(jì),且易于逐一調(diào)試和驗(yàn)證。這一技術(shù)方案會(huì)先利用地圖和規(guī)則規(guī)劃期望路徑,再基于動(dòng)態(tài)窗口法或采樣優(yōu)化等技術(shù)生成軌跡,最后由PID或模型預(yù)測(cè)控制算法輸出執(zhí)行指令,以實(shí)現(xiàn)高速NOA等功能。但這一技術(shù)對(duì)環(huán)境建模和規(guī)則依賴(lài)較強(qiáng),在應(yīng)對(duì)復(fù)雜多變的交通場(chǎng)景和長(zhǎng)尾異常情況時(shí)容易出現(xiàn)性能瓶頸。

端到端系統(tǒng)架構(gòu)與決策機(jī)制

與模塊化方法不同,端到端(End-to-End, E2E)架構(gòu)是將傳感器數(shù)據(jù)直接映射到車(chē)輛操控輸出,從而實(shí)現(xiàn)聯(lián)合優(yōu)化。其實(shí)端到端概念并不是近幾年才出現(xiàn)的,如1989年的ALVINN和2016年的NVIDIA DAVE-2等,使用前置攝像頭圖像輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)直接輸出轉(zhuǎn)向角,以驗(yàn)證了端到端架構(gòu)的可行性。

近年來(lái),隨著大規(guī)模數(shù)據(jù)集和深度學(xué)習(xí)技術(shù)的發(fā)展,端到端自動(dòng)駕駛方法不斷涌現(xiàn)。典型的端到端決策機(jī)制包括基于模仿學(xué)習(xí)(將駕駛員操作作為監(jiān)督信號(hào))以及強(qiáng)化學(xué)習(xí)(以安全舒適為目標(biāo)優(yōu)化獎(jiǎng)勵(lì))等策略,驅(qū)動(dòng)模型直接學(xué)習(xí)從傳感器到規(guī)劃軌跡或控制命令的映射。端到端系統(tǒng)可以簡(jiǎn)化結(jié)構(gòu),將感知、預(yù)測(cè)和規(guī)劃任務(wù)合并到一個(gè)聯(lián)合可訓(xùn)練的模型中,從而能對(duì)駕駛性能進(jìn)行直接優(yōu)化。

端到端架構(gòu)看似極具優(yōu)勢(shì),但由于缺乏明確的中間輸出,端到端系統(tǒng)往往被視為“黑箱”,難以解釋其決策過(guò)程,且在極端或罕見(jiàn)場(chǎng)景下的可靠性尚未充分驗(yàn)證。此外,端到端模型需要海量多樣化的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算資源,訓(xùn)練優(yōu)化難度較大。為了兼顧性能與安全,有些方法在端到端架構(gòu)中仍保留了一定的模塊化結(jié)構(gòu)(如使用語(yǔ)義分割或目標(biāo)檢測(cè)作為中間表示)。近年來(lái),還出現(xiàn)了將視覺(jué)數(shù)據(jù)與語(yǔ)言模型(如大規(guī)模視覺(jué)語(yǔ)言模型)結(jié)合的嘗試,以提升對(duì)場(chǎng)景語(yǔ)義和因果關(guān)系的理解能力,但這也進(jìn)一步增加了系統(tǒng)復(fù)雜度和實(shí)時(shí)性的挑戰(zhàn)。智駕最前沿曾簡(jiǎn)單圖解了模塊化架構(gòu)到端到端大模型,以故事的方式將這兩個(gè)技術(shù)給大家厘清楚了(相關(guān)閱讀:自動(dòng)駕駛中基于規(guī)則的決策和端到端大模型有何區(qū)別?)。

三種端到端架構(gòu)詳細(xì)解析

3.1?模塊化端到端架構(gòu)

模塊化端到端架構(gòu)(Modular End-to-End)將整體規(guī)劃任務(wù)分解為可微分的子模塊,但在訓(xùn)練和推理時(shí)聯(lián)合優(yōu)化以最終規(guī)劃目標(biāo)為準(zhǔn)。該架構(gòu)既保留了模塊化結(jié)構(gòu)的可解釋性,又能享受端到端訓(xùn)練的優(yōu)勢(shì)。近年來(lái)已有不少研究和工業(yè)解決方案采用類(lèi)似思路,如Wayve等公司訓(xùn)練多任務(wù)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端規(guī)劃,并在CARLA等仿真平臺(tái)上取得優(yōu)異成績(jī)。特斯拉最新的FSD V12方案也采用了這種模塊化端到端理念,使用鳥(niǎo)瞰(BEV)空間的占據(jù)網(wǎng)格(Occupancy Grid)網(wǎng)絡(luò)進(jìn)行路徑規(guī)劃。特斯拉將多目攝像頭的特征映射到俯視圖空間,通過(guò)端到端學(xué)習(xí)得到占據(jù)概率圖,然后從中生成安全可行的行駛軌跡。該方法弱化了對(duì)高精度地圖的依賴(lài),使車(chē)輛能更靈活地應(yīng)對(duì)多傳感器融合后的環(huán)境感知。簡(jiǎn)單理解,模塊化端到端架構(gòu)在設(shè)計(jì)上仍保留了感知、預(yù)測(cè)、規(guī)劃等模塊,只是各模塊參數(shù)可以聯(lián)合訓(xùn)練,因此能夠在一定程度上兼顧模型的可解釋性和任務(wù)級(jí)優(yōu)化性能。

3.2?雙系統(tǒng)端到端架構(gòu)(端到端+視覺(jué)語(yǔ)言模型)

雙系統(tǒng)端到端架構(gòu)在單一的端到端模型之外,增加了一個(gè)視覺(jué)語(yǔ)言輔助系統(tǒng),以提升對(duì)復(fù)雜場(chǎng)景的理解和推理能力。這一架構(gòu)采用了“快慢雙系統(tǒng)”理念,快速系統(tǒng)(Fast System)采用端到端學(xué)習(xí)處理即時(shí)的軌跡規(guī)劃與控制,慢速系統(tǒng)(Slow System)則借助大規(guī)模視覺(jué)語(yǔ)言模型(VLM)進(jìn)行高層次的語(yǔ)義推理和決策支持,雙系統(tǒng)相互協(xié)同,保障了智駕系統(tǒng)的安全性。

理想汽車(chē)的最新研發(fā)方案就采用了這一思路,一個(gè)端到端神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)實(shí)時(shí)駕駛控制,另一個(gè)視覺(jué)語(yǔ)言模型則對(duì)當(dāng)前場(chǎng)景進(jìn)行語(yǔ)義化解析,提供補(bǔ)充信息和決策建議。長(zhǎng)安汽車(chē)的“天樞”大模型架構(gòu)也采用了“大腦小腦”結(jié)構(gòu),其中“大腦”部分即是基于大模型的慢速系統(tǒng),用于復(fù)雜推理,而“小腦”則負(fù)責(zé)具體規(guī)劃和控制。雙系統(tǒng)架構(gòu)的決策機(jī)制通常是端到端模型快速生成初步路徑,而視覺(jué)語(yǔ)言模型則分析環(huán)境上下文(如交通標(biāo)志含義、行人意圖等),在必要時(shí)修正或豐富規(guī)劃結(jié)果。但這種方案需要同時(shí)運(yùn)行兩個(gè)大模型,占用大量算力,而且模型間的協(xié)同效率和一致性需要專(zhuān)門(mén)設(shè)計(jì)和優(yōu)化。

3.3?單模型端到端架構(gòu)

單模型端到端架構(gòu)(One Model E2E)旨在用一個(gè)統(tǒng)一的多模態(tài)大模型完成所有自動(dòng)駕駛?cè)蝿?wù),包括感知、預(yù)測(cè)與規(guī)劃。這一思路受到大規(guī)模語(yǔ)言模型和視覺(jué)語(yǔ)言模型的啟發(fā),力圖構(gòu)建一個(gè)“駕駛領(lǐng)域的通用基礎(chǔ)模型”。近期行業(yè)內(nèi)就有相關(guān)嘗試,比如DriveMM是一種全新的大規(guī)模多模態(tài)模型,可以處理圖像和多視角視頻等多種輸入,并執(zhí)行感知、預(yù)測(cè)和規(guī)劃等廣泛的駕駛?cè)蝿?wù)。該模型先在各類(lèi)視覺(jué)和語(yǔ)言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,再利用駕駛數(shù)據(jù)集微調(diào),在多個(gè)公開(kāi)數(shù)據(jù)集上實(shí)現(xiàn)了全任務(wù)的最先進(jìn)性能。

在決策機(jī)制上,單模型架構(gòu)可以將駕駛問(wèn)題轉(zhuǎn)化為類(lèi)似語(yǔ)言問(wèn)答或生成的形式,由模型直接給出安全規(guī)劃或控制輸出,甚至可以通過(guò)自然語(yǔ)言交互進(jìn)行意圖控制。這種“全能型”模型的優(yōu)勢(shì)在于統(tǒng)一了數(shù)據(jù)表示和優(yōu)化目標(biāo),可挖掘跨任務(wù)協(xié)同效應(yīng);但代價(jià)是模型規(guī)模巨大,對(duì)算力和數(shù)據(jù)的需求極高,而且目前缺乏實(shí)車(chē)部署的成熟方案。除了DriveMM之外,還有如DriveGPT4等嘗試將駕駛?cè)蝿?wù)映射為文本問(wèn)題,利用大型語(yǔ)言模型直接生成軌跡或控制指令。這些單模型方法代表著未來(lái)自動(dòng)駕駛大模型的發(fā)展方向,但在安全可控性和實(shí)時(shí)性上仍需突破。

模塊化與端到端方案的優(yōu)劣勢(shì)分析

4.1?系統(tǒng)復(fù)雜度

模塊化架構(gòu)涉及眾多專(zhuān)業(yè)模塊,系統(tǒng)設(shè)計(jì)和集成相對(duì)復(fù)雜,需要人工調(diào)試和維護(hù)多個(gè)組件(感知、定位、規(guī)劃、控制等)。相比之下,純粹的單模型端到端方案將整體流程壓縮為一個(gè)網(wǎng)絡(luò),減少了傳統(tǒng)模塊的數(shù)量,從架構(gòu)上更加簡(jiǎn)潔。但模塊化端到端架構(gòu)需要設(shè)計(jì)多個(gè)可微分的子網(wǎng)絡(luò),并管理它們之間的數(shù)據(jù)流;雙系統(tǒng)架構(gòu)則需同步運(yùn)行兩個(gè)大模型,協(xié)調(diào)“快速端到端模型”和“慢速語(yǔ)言模型”的輸出,反而增添了額外的子模塊或并行網(wǎng)絡(luò),系統(tǒng)層次稍顯復(fù)雜??傮w來(lái)看,純粹的單一大模型在系統(tǒng)構(gòu)成上最為簡(jiǎn)單,但模型本身規(guī)模龐大;傳統(tǒng)模塊化則模塊眾多但各自相對(duì)簡(jiǎn)單。

4.2?訓(xùn)練與優(yōu)化難度

模塊化方案可分別針對(duì)各個(gè)子任務(wù)訓(xùn)練(如目標(biāo)檢測(cè)、車(chē)道線分割、軌跡規(guī)劃),每個(gè)模塊使用結(jié)構(gòu)化標(biāo)注數(shù)據(jù),通過(guò)監(jiān)督學(xué)習(xí)容易收斂。但這也需要針對(duì)每個(gè)模塊收集和標(biāo)注大量數(shù)據(jù)。端到端模型則需要更大規(guī)模的駕駛數(shù)據(jù)(包括傳感器輸入與人類(lèi)駕駛輸出)來(lái)進(jìn)行聯(lián)合訓(xùn)練。由于決策輸出高度依賴(lài)真實(shí)駕駛表現(xiàn),端到端系統(tǒng)往往需要大量路測(cè)和仿真數(shù)據(jù)來(lái)覆蓋各類(lèi)場(chǎng)景。雙系統(tǒng)架構(gòu)在此基礎(chǔ)上還需準(zhǔn)備適配視覺(jué)語(yǔ)言模型的數(shù)據(jù)集以及專(zhuān)門(mén)的對(duì)話(huà)或問(wèn)答訓(xùn)練。單一大模型的訓(xùn)練難度最高,它不僅需要融合多模態(tài)(視覺(jué)、地圖、語(yǔ)言等)數(shù)據(jù),還要在單一模型中學(xué)習(xí)多任務(wù),因此訓(xùn)練過(guò)程極其復(fù)雜,對(duì)算力和數(shù)據(jù)的需求遠(yuǎn)超其他方案??偟膩?lái)說(shuō),端到端方案在優(yōu)化時(shí)缺少顯式的中間監(jiān)督信號(hào),容易陷入收斂困難或性能不穩(wěn)定的問(wèn)題,需要更多的探索和調(diào)參。

4.3?決策透明性

模塊化系統(tǒng)的一個(gè)重要優(yōu)勢(shì)是可解釋性強(qiáng),每個(gè)模塊有明確的功能邊界,設(shè)計(jì)者可以查看感知輸出、中間地圖和規(guī)劃軌跡等結(jié)果,清楚地定位問(wèn)題所在。相比之下,全端到端模型由于決策過(guò)程高度融合,往往是“黑箱”式的,難以直接解釋為何做出某個(gè)操控決策。不過(guò)端到端范式并不一定完全封閉黑箱,采用模塊化端到端策略的系統(tǒng)可以保留如目標(biāo)檢測(cè)或語(yǔ)義分割等中間輸出,使得系統(tǒng)仍然可以獲得部分透明度。如特斯拉的BEV占據(jù)圖在一定程度上提供了環(huán)境語(yǔ)義信息,而Wayve等系統(tǒng)也會(huì)輸出熱力圖供可視化。

雙系統(tǒng)架構(gòu)引入的視覺(jué)語(yǔ)言模型本質(zhì)上也作為輔助推理,但這種模型自身通常缺乏明確的決策解釋性。單模型架構(gòu)盡管功能最強(qiáng)大,但幾乎沒(méi)有可見(jiàn)中間層供審查,其決策過(guò)程難以監(jiān)督或理解,反而需要依賴(lài)后續(xù)的解釋性AI技術(shù)去分析網(wǎng)絡(luò)關(guān)注區(qū)域。因此,就透明性而言,傳統(tǒng)模塊化和模塊化端到端方案較優(yōu);而純端到端或大規(guī)模大模型系統(tǒng)的決策往往更不透明。

4.4?靈活性

在功能拓展和算法迭代方面,模塊化架構(gòu)具有較好的靈活性,當(dāng)需要應(yīng)對(duì)新場(chǎng)景或添加新功能時(shí),可以針對(duì)性地替換或升級(jí)某個(gè)模塊(如換用更好的感知算法或優(yōu)化規(guī)劃策略),而無(wú)需重訓(xùn)整個(gè)系統(tǒng)。

端到端方案則不易插入外部知識(shí)或規(guī)則,任何改變往往要通過(guò)重新訓(xùn)練網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。雙系統(tǒng)架構(gòu)在這方面介于兩者之間,雖然端到端模型需要重訓(xùn),但通過(guò)語(yǔ)義模塊(VLM)可以靈活地添加解釋層面能力,如通過(guò)修改提示詞或微調(diào)語(yǔ)言模型來(lái)適應(yīng)新需求。單模型架構(gòu)的拓展性最弱,因?yàn)槠鋬?nèi)部結(jié)構(gòu)緊耦合,任何微調(diào)都會(huì)影響整個(gè)模型性能。此外,外部策略調(diào)整(如應(yīng)急接管邏輯)也更難融入端到端模型。綜合來(lái)看,模塊化設(shè)計(jì)在靈活性上占優(yōu),而高度集成的端到端模型需要付出更大代價(jià)才能適應(yīng)變化。

相關(guān)推薦

房山区| 西乌珠穆沁旗| 洛阳市| 惠州市| 库尔勒市| 班玛县| 岑溪市| 丰宁| 郴州市| 株洲县| 雅安市| 新巴尔虎左旗| 安康市| 金川县| 通州区| 南丹县| 余干县| 吉水县| 武城县| 育儿| 股票| 清原| 米泉市| 三台县| 鹿邑县| 延长县| 濮阳县| 石棉县| 富宁县| 巫山县| 高邑县| 怀仁县| 邓州市| 法库县| 吴川市| 黎川县| 临猗县| 南澳县| 太原市| 景洪市| 龙川县|