成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
    • 端到端架構(gòu):特斯拉智駕指明的方向
    • 什么是VLA?
    • VLA上車難,難在哪里?
    • 打響VLA上車的第一槍
    • VLA,是不是唯一路徑?
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

VLA,是不是自動(dòng)駕駛的下一站?

03/27 13:30
2088
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 |?肖恩,編輯 |?德新

中國(guó)農(nóng)歷新年結(jié)束沒(méi)多久,馬斯克就給中國(guó)的特斯拉車主送上一份大禮——2月26日,在毫無(wú)征兆的情況下特斯拉向中國(guó)區(qū)購(gòu)買了FSD的HW4.0車主開(kāi)啟了功能推送。

此前一度傳言FSD因?yàn)閿?shù)據(jù)問(wèn)題入華時(shí)間將推遲,而且這次推送的是和美國(guó)相同的V13版本,對(duì)于它在中國(guó)的表現(xiàn)大家非常好奇,隨后各大媒體和大V都對(duì)FSD進(jìn)行了詳細(xì)的測(cè)試。

從媒體的測(cè)試結(jié)果來(lái)看,F(xiàn)SD的表現(xiàn)無(wú)疑是不及格的,認(rèn)錯(cuò)路和違反交規(guī)是常規(guī)操作,甚至用接管次數(shù)這個(gè)指標(biāo)已經(jīng)無(wú)法評(píng)價(jià)它的表現(xiàn)了,要用違章次數(shù)才能體現(xiàn)出FSD在中國(guó)的拉跨,中國(guó)智駕遙遙領(lǐng)先的的聲音更響亮了。

但是FSD的表現(xiàn)真的如此不堪嗎?

端到端架構(gòu):特斯拉智駕指明的方向

作為智駕從業(yè)者,我也體驗(yàn)了FSD在城區(qū)的表現(xiàn)。

如果以接管次數(shù)為評(píng)價(jià)指標(biāo),F(xiàn)SD和國(guó)內(nèi)第一梯隊(duì)的方案相比,確實(shí)是不合格的,但是幾乎所有的接管都是和交通規(guī)則和道路相關(guān)。這也側(cè)面印證了馬斯克的說(shuō)法,現(xiàn)階段由于數(shù)據(jù)問(wèn)題特斯拉只能通過(guò)互聯(lián)網(wǎng)的視頻來(lái)訓(xùn)練FSD,無(wú)法很好地理解和適應(yīng)中國(guó)的交通環(huán)境。

除此之外,F(xiàn)SD的基礎(chǔ)能力堪稱驚艷,異常流暢的控制、行云流水的繞行、果斷的超車和變道,給人的體驗(yàn)就像是經(jīng)驗(yàn)豐富的專車司機(jī),在遇到擁堵情況時(shí)決策毫不拖泥帶水。

從我個(gè)人的體驗(yàn)來(lái)看,F(xiàn)SD如果適應(yīng)了中國(guó)的交規(guī)和道路,它的表現(xiàn)將超過(guò)國(guó)內(nèi)現(xiàn)階段的智駕方案。

特斯拉從V12開(kāi)始全面轉(zhuǎn)向端到端架構(gòu),和之前的版本相比FSD的表現(xiàn)有了巨大的提升,從BEV、Transformer到占用格柵網(wǎng)絡(luò)。在傳統(tǒng)的感知-規(guī)劃-控制的架構(gòu)下,特斯拉給智駕行業(yè)帶來(lái)了非常多的啟示,為了實(shí)現(xiàn)無(wú)人駕駛的目標(biāo),特斯拉跳出傳統(tǒng)的思維框架,第一次在量產(chǎn)車上引入了端到端的架構(gòu),為智駕行業(yè)指出了新的技術(shù)方向。

也許是怕中國(guó)學(xué)生學(xué)得太快,特斯拉并沒(méi)有公布自己端到端架構(gòu)的細(xì)節(jié)。

國(guó)內(nèi)智駕行業(yè)開(kāi)始自己探索端到端這條技術(shù)路徑,其中最典型和成功的案例,無(wú)疑是理想的端到端+VLM雙系統(tǒng)架構(gòu)。這個(gè)方案將理想從原來(lái)智駕第三梯隊(duì)的位置快速提升至第一梯隊(duì),在部分場(chǎng)景的表現(xiàn)甚至超過(guò)華為ADS。

理想的這套系統(tǒng)結(jié)合了快慢系統(tǒng)的理論。

系統(tǒng)1是一段式的端到端模型,可以處理95%以上的常規(guī)駕駛場(chǎng)景;同時(shí)為了提升長(zhǎng)尾場(chǎng)景的處理能力,引入了VLM視覺(jué)語(yǔ)言模型作為系統(tǒng)2輔助決策,系統(tǒng)2能夠?qū)?chǎng)景進(jìn)行描述和分析,給系統(tǒng)1提出決策建議。

其中VLM的核心是一個(gè)LLM模型,也就是類似chatGPT的大語(yǔ)言模型。它有非常強(qiáng)的理解和邏輯推理能力,由大規(guī)模海量互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的LLM具備一定的通識(shí)認(rèn)知,能夠利用符合邏輯的推理能力獲得復(fù)雜場(chǎng)景和從未見(jiàn)過(guò)的長(zhǎng)尾場(chǎng)景的處理能力。

理想在LLM的基礎(chǔ)上,使用了車輛的傳感器數(shù)據(jù)和場(chǎng)景描述信息對(duì)模型進(jìn)行了訓(xùn)練,最終讓VLM模型能夠?qū)?chǎng)景完成思維鏈推理,從場(chǎng)景描述到場(chǎng)景分析,最終完成層級(jí)規(guī)劃并輸出軌跡。

從實(shí)際的體驗(yàn)來(lái)看,這套系統(tǒng)「端味十足」,對(duì)車輛的控制非常線性,駕駛行為接近人類的習(xí)慣,VLM的加入讓系統(tǒng)在特殊場(chǎng)景下的表現(xiàn)也可圈可點(diǎn),是當(dāng)前技術(shù)條件下非常好的思路。

但是,這套系統(tǒng)仍然有一些問(wèn)題要解決。

第一個(gè)問(wèn)題就是VLM系統(tǒng)的延時(shí)太高。

由于LLM模型的參數(shù)量非常大,對(duì)于計(jì)算量的需求很高?,F(xiàn)在車端算力最大的智駕芯片OrinX也只有254Tops,雖然經(jīng)過(guò)非常多的優(yōu)化,最終VLM在車端能實(shí)現(xiàn)的頻率也只有5Hz左右,無(wú)法滿足實(shí)時(shí)性的要求,導(dǎo)致VLM的決策軌跡只能作為決策建議,并不能直接輸出給車輛控制,在一定程度上限制了VLM的能力。

第二,理想的VLM基座模型是千問(wèn)。

它是阿里的開(kāi)源大語(yǔ)言模型,這一類模型基于網(wǎng)絡(luò)上大量的文本訓(xùn)練而成,特點(diǎn)是通用性好,有很強(qiáng)的對(duì)語(yǔ)義理解能力和對(duì)話能力,但并不是專為駕駛場(chǎng)景設(shè)計(jì)。對(duì)于駕駛行為的理解能力有限,也沒(méi)有很好的3D空間理解能力,即使經(jīng)過(guò)了訓(xùn)練,但是上限不夠。

第三,端到端和VLM是兩個(gè)獨(dú)立的模型,使用的訓(xùn)練數(shù)據(jù)也不相同,而且運(yùn)行的頻率不一樣,對(duì)兩個(gè)模型聯(lián)合訓(xùn)練和優(yōu)化非常困難。

為了解決這些問(wèn)題,理想給出的答案是VLA。

什么是VLA?

VLA代表Vision-Language-Action,最早出現(xiàn)在具身機(jī)器人領(lǐng)域。

谷歌DeepMind在2023年7月發(fā)布了全球首個(gè)可以控制機(jī)器人的VLA模型:RT-2,這個(gè)模型以大語(yǔ)言模型為基礎(chǔ),模型接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后,可以直接輸出控制信號(hào),完成各種復(fù)雜的操作。

RT-2的結(jié)構(gòu)非常簡(jiǎn)單,圖像信息經(jīng)過(guò)VIT編碼后和語(yǔ)言信息的token一起輸入到LLM中,谷歌在這里使用了自家的Gemini,模型輸出一系列的Action token,解碼后轉(zhuǎn)化為機(jī)械臂的控制信號(hào)。

和以前的模型相比,RT-2在交互能力、任務(wù)能力和泛化能力上都有非常大的提升。

傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令,借助于大語(yǔ)言模型強(qiáng)大的語(yǔ)言理解能力,RT-2可以直接和用戶進(jìn)行語(yǔ)言交互,能夠理解復(fù)雜和模糊的指令,完成各種類型的任務(wù)。

大語(yǔ)言模型最強(qiáng)大的地方在于它的泛化能力,基于互聯(lián)網(wǎng)海量信息的訓(xùn)練,大模型會(huì)涌現(xiàn)出強(qiáng)大的通識(shí)能力,這就是我們常說(shuō)的Scaling Law,這種能力可以遷移到VLA模型中,能夠讓模型理解訓(xùn)練數(shù)據(jù)以外的物體和場(chǎng)景。

VLA在機(jī)器人領(lǐng)域的成功,很快也應(yīng)用在了自動(dòng)駕駛上。

不論是傳統(tǒng)的規(guī)則模型還是數(shù)據(jù)驅(qū)動(dòng)的端到端模型,都無(wú)法解決一個(gè)問(wèn)題。如果某個(gè)場(chǎng)景在模型的訓(xùn)練數(shù)據(jù)之外,系統(tǒng)的表現(xiàn)會(huì)非常不穩(wěn)定,只能不斷修補(bǔ),但是現(xiàn)實(shí)中駕駛場(chǎng)景太復(fù)雜,沒(méi)有辦法在數(shù)據(jù)中窮舉所有的可能。因此長(zhǎng)尾場(chǎng)景一直是自動(dòng)駕駛最大的挑戰(zhàn)。

自從大語(yǔ)言模型出現(xiàn)后,它表現(xiàn)出接近于人類水平的理解能力,給工程師看到一種可能,利用大模型來(lái)解決長(zhǎng)尾場(chǎng)景,VLM和VLA都是這個(gè)方向的探索。

繼RT-2之后,24年11月一直專注于L4方案的Waymo發(fā)布了用于自動(dòng)駕駛的多模態(tài)大語(yǔ)言模型(Multimodal Large Language Models)EMMA,雖然Waymo沒(méi)有將其定義為VLA,但是從模型的結(jié)構(gòu)看,可以看作是VLA的一種形態(tài)。

EMMA有三個(gè)輸入,分別是

攝像頭的原始圖像;

導(dǎo)航的路徑信息;

歷史信息和自車狀態(tài)。

中間的大語(yǔ)言模型和RT-2一樣,基于谷歌的Gemini,通過(guò)CoT思維鏈的推理,EMMA能輸出以下信息:

自車未來(lái)的軌跡;

感知結(jié)果;

道路元素;

對(duì)場(chǎng)景的理解。

在nuScenes數(shù)據(jù)集的Planning Benchmark上,EMMA的表現(xiàn)經(jīng)驗(yàn),超過(guò)了傳統(tǒng)端到端模型,如UniAD以及許多VLM模型,側(cè)面證明了VLA在自動(dòng)駕駛領(lǐng)域的潛力。

雖然EMMA也有一些問(wèn)題,例如對(duì)于3D空間的推理能力較弱、計(jì)算量大等,但是為自動(dòng)駕駛帶來(lái)的新的方向。

VLA上車難,難在哪里?

雖然EMMA和DriveGPT4等VLA模型在學(xué)術(shù)領(lǐng)域都取得了不錯(cuò)的進(jìn)展,但是至今還沒(méi)有一個(gè)可量產(chǎn)的方案出現(xiàn),這里有幾個(gè)問(wèn)題要解決。

算力問(wèn)題

不論哪種VLA都是基于大語(yǔ)言模型來(lái)實(shí)現(xiàn),而大語(yǔ)言模型的特點(diǎn)除了參數(shù)量大之外,對(duì)算力的要求非常高,通常都是部署在服務(wù)器端。

目前車端的自動(dòng)駕駛芯片算力非常有限,量產(chǎn)算力最高的自動(dòng)駕駛芯片OrinX也只有254Tops,這限制了車端能部署的模型規(guī)模以及運(yùn)行的頻率。

從理想VLM的經(jīng)驗(yàn)來(lái)看,雖然經(jīng)過(guò)了非常多工程上的優(yōu)化,最終的運(yùn)行效率仍然達(dá)不到10Hz,需要更強(qiáng)大的芯片來(lái)支持。英偉達(dá)下一代的Thor U芯片將超過(guò)700 Tops,對(duì)于VLA上車來(lái)說(shuō)會(huì)是非常重要的一環(huán)。

數(shù)據(jù)閉環(huán)

另一個(gè)對(duì)VLA非常重要的挑戰(zhàn)是數(shù)據(jù)。

雖然大語(yǔ)言模型已經(jīng)基于海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)于語(yǔ)言和文本已經(jīng)有了非常強(qiáng)的分析能力,但對(duì)于駕駛相關(guān)的視頻數(shù)據(jù)、激光雷達(dá)點(diǎn)云和車輛狀態(tài)等數(shù)據(jù),并沒(méi)有公開(kāi)的海量數(shù)據(jù)可用。

而且VLA的關(guān)鍵能力CoT思維鏈,需要根據(jù)設(shè)計(jì)的邏輯和問(wèn)題建立定制化的數(shù)據(jù),需要車企有非常強(qiáng)的數(shù)據(jù)閉環(huán)能力。

在現(xiàn)在全民智駕的背景下,很多OEM喜歡用汽車的保有量來(lái)宣稱自己有海量的數(shù)據(jù),能夠快速迭代智駕算法,實(shí)際上這只是面向普通消費(fèi)者的宣傳術(shù)語(yǔ)。

即使是軟件硬件架構(gòu)高度統(tǒng)一的特斯拉,前幾代產(chǎn)品產(chǎn)生的數(shù)據(jù)也很難對(duì)現(xiàn)在的算法有幫助,更別說(shuō)國(guó)內(nèi)的OEM早期的車輛基本只有一顆前視攝像頭,而且方案還五花八門,這種數(shù)據(jù)對(duì)于高階智駕的算法,特別是VLA而言就是毫無(wú)用處。

進(jìn)入端到端和VLA的時(shí)代,數(shù)據(jù)閉環(huán)不僅僅是收集數(shù)據(jù),收集什么樣的數(shù)據(jù),如何從海量的量產(chǎn)數(shù)據(jù)中挖掘有用的場(chǎng)景,如何把這些場(chǎng)景用在算法的優(yōu)化上;誰(shuí)能更早把這些問(wèn)題想清楚,誰(shuí)就能在數(shù)據(jù)為王的時(shí)代占得先機(jī)。

可解釋性差

這幾乎是所有大語(yǔ)言模型的通病。雖然大模型能夠涌現(xiàn)出強(qiáng)大的能力,但是它似乎是一個(gè)大的黑盒子,到現(xiàn)在也沒(méi)有人能很好地解釋為什么大模型會(huì)有Scaling Law,以及它是如何思考的。也許對(duì)于語(yǔ)言類的大模型而言,邏輯上的錯(cuò)誤并不致命,但是對(duì)于自動(dòng)駕駛來(lái)說(shuō),一個(gè)小小的錯(cuò)誤有可能就會(huì)產(chǎn)生嚴(yán)重的后果。

因此可解釋性對(duì)于自動(dòng)駕駛而言是非常重要的特性,特別是在量產(chǎn)車上,遇到有問(wèn)題的場(chǎng)景,需要找到根源問(wèn)題root cause才能快速地優(yōu)化。

雖然在VLA中增加了對(duì)于決策過(guò)程的解釋,但是無(wú)法像傳統(tǒng)算法那樣定位到問(wèn)題代碼,如何快速解bug,這會(huì)是VLA上車之后的一大挑戰(zhàn)。

辦法總比困難多,雖然VLA上車有種種挑戰(zhàn),但是總用不怕困難的廠商率先嘗試,這一次還是理想走在了前面。

打響VLA上車的第一槍

作為首發(fā)VLM上車的車企,理想無(wú)疑是去年智駕行業(yè)最耀眼的明星。

不到一年的時(shí)間,理想再次領(lǐng)先一步,3月18日理想正式發(fā)布了下一代自動(dòng)駕駛架構(gòu)MindVLA,這是一個(gè)融合了視覺(jué)、語(yǔ)言和行為智能的大模型,賦予了自動(dòng)駕駛強(qiáng)大的3D空間理解能力、邏輯推理能力和行為生成能力,讓自動(dòng)駕駛能夠感知、思考和適應(yīng)環(huán)境,更重要的是通過(guò)3D高斯、MoE混合專家架構(gòu)的LLM基座模型和diffusion模型等技術(shù),讓VLA第一次應(yīng)用在量產(chǎn)車。

理想也公開(kāi)了非常多的細(xì)節(jié),從架構(gòu)上看MindVLA和學(xué)術(shù)領(lǐng)域的VLA架構(gòu)有很多的不同點(diǎn)。

之前的VLA架構(gòu)非常簡(jiǎn)單,輸入是傳感器數(shù)據(jù)和語(yǔ)言信息,輸出軌跡,中間是一個(gè)大的基座模型,而MindVLA除了有基座大模型之外,還增加了其它的模塊,這其中有幾個(gè)關(guān)鍵的技術(shù),代表了理想從工程端對(duì)VLA的理解。

V - Spatial Intelligence空間智能

在MindVLA的架構(gòu)中傳感器數(shù)據(jù)沒(méi)有直接輸入到基座大模型中,而是先經(jīng)過(guò)了一個(gè)V-Spatial Intelligence的模塊,這個(gè)模塊能根據(jù)傳感器的原始輸入形成對(duì)3D物理世界的理解,和大語(yǔ)言模型相比,有更強(qiáng)的空間感知能力,這其中關(guān)鍵的技術(shù)是使用了3D高斯表征。

3D高斯最早起源于圖像渲染和三維場(chǎng)景重建領(lǐng)域,可以通過(guò)二維的圖像還原3D的場(chǎng)景,此前該領(lǐng)域廣泛應(yīng)用的是神經(jīng)輻射場(chǎng)算法-NeRF,這是一種基于輻射場(chǎng)和光纖可逆原理還原3D物體的神經(jīng)網(wǎng)絡(luò)算法,圖像質(zhì)量高但是訓(xùn)練時(shí)間長(zhǎng)、渲染速度慢,不適合實(shí)時(shí)場(chǎng)景,廣泛用于電影特效和游戲開(kāi)發(fā)領(lǐng)域。

而3D高斯則是利用3D高斯分布的點(diǎn)對(duì)圖像進(jìn)行建模,每個(gè)高斯點(diǎn)包含位置、方向、顏色和透明度等信息,渲染時(shí)這些高斯分布點(diǎn)會(huì)被投影出來(lái),通過(guò)光柵化技術(shù)合成,類似于在圖層上潑灑高斯點(diǎn),每個(gè)點(diǎn)貢獻(xiàn)一個(gè)像素或片段的顏色和透明圖,最終還原整個(gè)物體。

3D高斯最大的特點(diǎn)是建模速度非??觳⑶铱梢酝ㄟ^(guò)原圖的RGB信息進(jìn)行自監(jiān)督學(xué)習(xí)。

如果用畫(huà)畫(huà)來(lái)比喻,NeRF就像一個(gè)畫(huà)功很好的畫(huà)家,根據(jù)原圖中的光影和細(xì)節(jié)一筆一畫(huà)的還原出來(lái),而3D高斯則是前衛(wèi)的「潑墨」藝術(shù)家,同時(shí)將不同顏色和透明度的斑點(diǎn)打在畫(huà)布上,層層疊加形成圖像。

理想的團(tuán)隊(duì)將3D高斯首次應(yīng)在自動(dòng)駕駛領(lǐng)域,并且在路徑規(guī)劃、占用格柵網(wǎng)絡(luò)和障礙物檢測(cè)等任務(wù)上都有很好的表現(xiàn),MindVLA中使用3D高斯作為感知模塊,和自車位置和導(dǎo)航信息等一同編碼輸入到基座大模型中。

MindGPT大模型

這次的MindVLA中,理想沒(méi)有再使用開(kāi)源的千問(wèn)模型,而是從0開(kāi)始搭建了一個(gè)LLM基座模型MindGPT。

從名字來(lái)看這似乎是和理想座艙共用的大模型,而且李想今年也公開(kāi)表示成為一家AI公司的長(zhǎng)期愿景,所以根據(jù)自身的需求搭建一個(gè)大模型是非常必要的戰(zhàn)略方向。

為了降低大模型在車端的計(jì)算需求,MindVLA采用了MoE混合專家架構(gòu)和Sparse Attention(稀疏注意力)。

MoE模型是一種分而治之策略的神經(jīng)網(wǎng)絡(luò)架構(gòu),它將復(fù)雜的問(wèn)題分解為多個(gè)子問(wèn)題,每個(gè)子問(wèn)題由一個(gè)獨(dú)立的模型(稱為專家)進(jìn)行處理,與稠密模型相比,參數(shù)更少,預(yù)訓(xùn)練速度更快,同時(shí)由于少數(shù)專家模型被同時(shí)激活,與相同參數(shù)數(shù)量的模型相比,MoE架構(gòu)可以大幅減少計(jì)算開(kāi)銷。

稀疏注意力機(jī)制是一種改進(jìn)的注意力機(jī)制,旨在解決傳統(tǒng)的Transformer注意力機(jī)制在高維輸入或長(zhǎng)序列數(shù)據(jù)上的計(jì)算復(fù)雜度過(guò)高的問(wèn)題。通過(guò)減少注意力計(jì)算中需要處理的元素?cái)?shù)量,稀疏注意力機(jī)制能夠顯著降低計(jì)算和內(nèi)存開(kāi)銷,同時(shí)保持較高的模型性能。

理想也把當(dāng)前端到端+VLM的快慢思考模式引入到MindVLA中,訓(xùn)練MindGPT學(xué)習(xí)這個(gè)思考模式,可以自主切換快思考和慢思考,同時(shí)MindVLA采取小詞表結(jié)合投機(jī)推理,以及并行解碼技術(shù),實(shí)現(xiàn)了模型參數(shù)規(guī)模與實(shí)時(shí)推理性能之間的平衡。

擴(kuò)散模型(Diffusion Model)

LLM大模型雖然可以直接輸出控制軌跡,但是準(zhǔn)確度不穩(wěn)定,MindVLA中沒(méi)有讓基座大模型直接生成軌跡,而是輸出Action token,然后使用了一個(gè)擴(kuò)散模型解碼成駕駛軌跡。

擴(kuò)散模型不僅生成自車的軌跡,同時(shí)預(yù)測(cè)其它車輛和行人的軌跡,此外擴(kuò)散模型還可以根據(jù)外部的條件輸入改變生成的結(jié)果,通過(guò)這種特性可以根據(jù)用戶的指令改變自動(dòng)駕駛系統(tǒng)的風(fēng)格。

為了解決擴(kuò)散模型生成效率低的問(wèn)題,MindVLA使用了基于常微分方程的ODE采樣器來(lái)加速生成過(guò)程,在2~3步內(nèi)就可以生成穩(wěn)定的軌跡。

云端世界模型

通過(guò)高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練,MindVLA大模型能夠達(dá)到專業(yè)司機(jī)的駕駛水平,但是要讓系統(tǒng)有機(jī)會(huì)超越人類,需要在云端模型場(chǎng)景對(duì)系統(tǒng)進(jìn)行訓(xùn)練,但是傳統(tǒng)的云端模擬都是基于游戲引擎,會(huì)出現(xiàn)不符合物理規(guī)律的幻覺(jué),無(wú)法滿足自動(dòng)駕駛對(duì)真實(shí)性的要求。

理想的做法是結(jié)合真實(shí)場(chǎng)景進(jìn)行重建和生成,同時(shí)在不同的視角下添加噪音來(lái)訓(xùn)練生成模型,讓模型具備多視角的生成能力,更接近真實(shí)世界的3D環(huán)境。

理想通過(guò)創(chuàng)新的架構(gòu)和工程上的優(yōu)化,讓VLA率先應(yīng)用在了量產(chǎn)車上,而且根據(jù)理想公布的計(jì)劃,MindVLA不僅會(huì)應(yīng)用在Thor方案上,當(dāng)前OrinX的方案也會(huì)搭載MindVLA,雖然在模型的參數(shù)規(guī)模上可能有些裁剪,但是表現(xiàn)同樣讓人期待。

VLA,是不是唯一路徑?

除了理想之外,元戎也一直是VLA方案的推崇者,從去年開(kāi)始元戎就在多個(gè)場(chǎng)合提出VLM并不是自動(dòng)駕駛方案的最優(yōu)解。

在前不久GTC上,元戎CEO周光也提到將用VLA打通空間智能、語(yǔ)言智能和行為智能,實(shí)現(xiàn)自動(dòng)駕駛并應(yīng)用在其它AI場(chǎng)景。

但VLA是實(shí)現(xiàn)自動(dòng)駕駛的唯一解嗎?

特斯拉并沒(méi)有公開(kāi)表示自己的端到端是以大語(yǔ)言模型為基座,但是它的表現(xiàn)依然驚艷。

「AI教母」李飛飛的第一個(gè)創(chuàng)業(yè)項(xiàng)目沒(méi)有選擇大語(yǔ)言模型,而是轉(zhuǎn)向空間智能,通過(guò)二維圖片來(lái)還原3D世界,類似的想法還有蔚來(lái)的世界模型;這些都代表了AI行業(yè)對(duì)下一代技術(shù)方向的思考,VLA是不是最優(yōu)解還需要實(shí)際表現(xiàn)來(lái)證明。

VLA在自動(dòng)駕駛領(lǐng)域才剛剛起步,還有很大的想象空間,今年7月份理想會(huì)開(kāi)啟MindVLA的推送,元戎也預(yù)計(jì)搭載其VLA模型的車型今年將投入消費(fèi)者市場(chǎng)。

非常期待它們的表現(xiàn)。

相關(guān)推薦

和龙市| 朝阳县| 松原市| 温泉县| 时尚| 洪雅县| 斗六市| 永清县| 建平县| 加查县| 宿州市| 财经| 宜宾市| 龙胜| 南雄市| 紫阳县| 建水县| 靖边县| 绵阳市| 溆浦县| 布尔津县| 探索| 晴隆县| 武汉市| 潞城市| 咸宁市| 惠来县| 黎川县| 山西省| 当阳市| 广灵县| 铁岭市| 蓬安县| 稻城县| 呼和浩特市| 安国市| 潼关县| 九龙县| 右玉县| 阳江市| 彭山县|