成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
    • What:什么是BEV+Transformer
    • Why:為什么需要基于Transformer的BEV
    • Who: 行業(yè)最佳實踐是特斯拉
    • How:自動駕駛感知的主流范式
    • 總結
  • 相關推薦
申請入駐 產業(yè)圖譜

一文看懂BEVFormer技術及其背后價值

2023/05/16
3989
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

從時間維度上看,BEVFormer已是歷史產物,或許幾個月、最多一兩年后,一個真正的“王炸”會出現(xiàn)。

2021年7月,特斯拉展示了基于BEV+Transformer(BEVFormer)的自動駕駛感知新范式,在取得了驚艷的效果后,國內也掀起“跟風潮”。

近期,理想、蔚來、小鵬、小馬智行、百度等多家主流車企、自動駕駛方案解決商推出相關量產方案。

一時間,BEV越發(fā)“火”了起來。

這背后邏輯也很好理解。一方面,BEV技術已經日漸成熟,從預研階段基本走到了量產落地階段;另外一方面,今年可能會是從高速NOA走向城區(qū)NOA量產的元年,在更加復雜的智駕場景下,BEV所帶來的優(yōu)勢能更好地得到體現(xiàn)。

與此同時,在智能駕駛商業(yè)化進展不及預期的大背景下,BEV也可以作為相關企業(yè)難得的“技術賣點”。

因此,在這個時間節(jié)點,我們試圖按照What-Why-Who-How的邏輯,對BEV+Transformer技術本身,以及背后的商業(yè)價值可能性進行探討。

What:什么是BEV+Transformer

首先解決技術概念問題。

BEV(Bird's-eye-view),即鳥瞰圖視角,是自動駕駛跨攝像頭和多模態(tài)融合背景下的一種視角表達形式。

它的核心思想,是將傳統(tǒng)自動駕駛2D圖像視角(Image View)加測距的感知方式,轉換為在鳥瞰圖視角下的3D感知。

從實現(xiàn)任務來說,BEV的核心是將2D圖像作為輸入,最終輸出一個3D的框架,在這個過程中,如何將不同傳感器的特征(feature)實現(xiàn)最優(yōu)表達是難點。

目前行業(yè)有兩種常見的方式,一種是正向思維,采用自底向上、從2D到3D的方式,先在2D視角去每個像素的深度,再通過內外參投影到BEV空間,通過多視角的融合生成BEV特征,但對深度的估計一直都是難點。

另一種方法是逆向思維,采用自頂向下、從3D到2D的方式,先在BEV空間初始化特征,在通過多層transformer與每個圖像特征進行交互融合,最終再得到BEV特征。

在第二種方法中,因為Transformer的存在,使得“逆向思維”成為了可能。

Transformer是一種基于注意力機制(Attention)的神經網絡模型,由Google在2017年提出。與傳統(tǒng)神經網絡RNN和CNN不同,Transformer不會按照串行順序來處理數據,而是通過注意力機制,去挖掘序列中不同元素的聯(lián)系及相關性,這種機制背后,使得Transformer可以適應不同長度和不同結構的輸入。

Transformer問世后,先在自然語言處理NLP領域大放異彩,之后被逐步移植到計算機視覺任務上,也取得了驚人的效果,實現(xiàn)了NLP和CV在建模結構上的大一統(tǒng),使視覺和語言的聯(lián)合建模更容易,兩個領域的建模和學習經驗可以通過深度共享,也加快各自領域進展。

Why:為什么需要基于Transformer的BEV

在厘清技術原理后,其實也就理解了“為什么需要”的問題:識別準,精度高,方便和激光、毫米波雷達做前融合等。

具體延展來看,BEV可以帶來四大優(yōu)勢。

第一,BEV視角下的物體,不會出現(xiàn)圖像視角下的尺度(scale)和遮擋(occlusion)問題。由于視覺的透視效應,物理世界物體在2D圖像中很容易受到其他物體遮擋,2D感知只能感知可見的目標,而在BEV空間內,算法可以基于先驗知識,對被遮擋的區(qū)域進行預測。

第二,將不同視角在BEV下進行統(tǒng)一表達,能極大方便后續(xù)規(guī)劃和控制任務。主流規(guī)劃和控制算法,不論上游傳感器信息來自什么視角,經過融合之后,都會轉換到以自車為中心坐標系中(Vehicle Coordinate System,VCS),對VCS來說,最適合的其實就是BEV視角,也就是BEV感知結果輸出的空間是規(guī)劃和控制任務的標準輸入。

第三,BEV能夠給系統(tǒng)帶來巨大的提升。攝像頭感知算法工作在2D空間,而雷達感知算法工作在3D空間,在對2D與3D幾何關系融合過程中,會丟失大量的原始信息,采用BEV感知系統(tǒng)中,攝像頭、激光雷達、毫米波雷達感知均在BEV空間中進行,融合過程提前。BEV還可以引入過去時間片段中的數據,實現(xiàn)時序融合,最終使感知效果更加穩(wěn)定、準確。

第四,BEV能夠實現(xiàn)端到端優(yōu)化。感知任務中的識別、跟蹤和預測本質是一個串行系統(tǒng),系統(tǒng)上游誤差會傳遞在下游誤差,在BEV空間內,感知和預測都在同一個空間進行,可以通過神經網絡做到端到端的優(yōu)化,輸出“并行”結果,而整個感知網絡可以以數據驅動方式來自學習,實現(xiàn)快速迭代。

可以理解為,BEV可以實現(xiàn)將360度環(huán)視的時間、空間融合,再加上Transformer架構可以輸出靜態(tài)的車道線、紅綠燈、道路邊緣信息等,以及動態(tài)的有行人、兩輪車、汽車等,同時還應用了端到端的預測能力,結合時序幀能對周邊的車輛做未來3-6秒的軌跡預測。

這也意味著,端到端的算法有了閉環(huán)的希望。

Who: 行業(yè)最佳實踐是特斯拉

特斯拉是第一個在工業(yè)界采用BEV+Transformer進行視覺感知任務的企業(yè)。

在其感知任務中,首先利用主干網絡對各個攝像機進行特征提取,再利用Transformer將多攝像機數據從圖像空間轉化為BEV空間。

在這個空間里面,通過深度學習去完成一個特征的融合,然后再通過一個3D的解碼器,直接端到端輸出最后的一個3D檢測和道路結構信息,這樣下游的規(guī)劃與控制直接可以在BEV的空間上去進行。

這一次革命,讓馬斯克可以自信地對外宣稱,特斯拉感知不依賴激光雷達和毫米波雷達,依靠純視覺,也可以得到準確三維世界信息。

基于以上實踐,眾多車企以及智駕供應商都開始嘗試BEV+transformer,車企里的代表蔚來、理想、小鵬;智駕供應商里面的百度、毫末、地平線、小馬、輕舟等等,在具體使用方法上每一家有“微調”,但是整體還是跟隨特斯拉的節(jié)奏在走。

How:自動駕駛感知的主流范式

未來,BEV+Transformer很有可能會替代之前的2D+CNN,逐步成為自動駕駛感知的主流范式。

這意味著,從硬件芯片開始,到傳感器攝像頭、軟件算法、模型部署、數據采集標定等,都需要有相應的適配和變化。

第一,為了確保視覺感知重疊,對汽車攝像頭數量的要求會有所提升,相應地,激光雷達的數量以及在感知中的作用會減少,也就是純視覺技術路線會受到更多的青睞。

第二,Transformer是暴力美學,模型體量驚人,其運算還會消耗大量的存儲及帶寬空間,對芯片來說,除了需要進行相應算子適配以及底層軟件優(yōu)化外,在SOC層面需要對緩存和帶寬要求進行增加。

第三,Transformer需要海量數據,會使得汽車數據采集、訓練、標注的成本大幅度上升。

這些一定程度上,也會使得芯片、攝像頭、標注等相關產業(yè)廠商受益。

總結

通過對BEV+Transformer的梳理,我主要有以下兩點感受。

第一, 為什么BEV+Transformer會成為主流范式,我覺得背后核心還是第一性原理,就是智能駕駛要越來越近“人一樣去駕駛”,映射到感知模型本身,BEV是一種更加自然的表達方式,而Transformer實現(xiàn)了CV和NLP的統(tǒng)一。

第二, 隨著工業(yè)和學術界的研究推進,近段時間BEV+Transformer從普及到走向量產,在當前智能駕駛商業(yè)受阻的背景下,或許是一個難得的亮點。但從時間維度上看,BEV+Transformer已是歷史產物,占用網絡已經來了,大模型也在路上,或許幾個月、最多一兩年之后,一個真正的“王炸”會出現(xiàn),會讓之前的積累全部推倒重來,我們要對每一波的迭代懷有敬畏之心,先從技術開始,之后就是商業(yè)模式的大變革。

有關算法迭代、大模型、Mapless、GPT等是我們近期持續(xù)跟進的重點,有興趣歡迎隨時與我溝通交流。

作者 | 汽車人參考

 

相關推薦

阿拉善右旗| 成安县| 高台县| 恭城| 柳州市| 华池县| 安乡县| 新津县| 雅安市| 怀集县| 治多县| 滦平县| 且末县| 怀安县| 拜泉县| 临沂市| 阿巴嘎旗| 清水河县| 云霄县| 崇义县| 昆山市| 万载县| 绥德县| 峨边| 广德县| 青冈县| 丰顺县| 西盟| 安西县| 垫江县| 潮州市| 尉犁县| 屯昌县| 礼泉县| 前郭尔| 伊宁市| 日照市| 隆化县| 华容县| 巍山| 尉氏县|