作者 | 章漣漪,編輯 | 邱鍇俊
如何用AI打造“有趣的靈魂”?商湯絕影從智艙到智駕,全方位給出了自己的答案。
4月23日,2025上海車展上,商湯絕影對外展示了系列生成式AI汽車產(chǎn)品。其中,智駕領(lǐng)域包括生成式智駕R-UniAD技術(shù)方案、近實時在線交互的4D世界模型“絕影開悟2.0”;智艙領(lǐng)域包括專為車載AIOS打造的AI內(nèi)核“絕影千機”,以及全新升級的“家庭新成員”等。
在商湯絕影CEO王曉剛看來,智能汽車的范式演進經(jīng)歷了三個階段。
第一個階段為完成點對點特定任務(wù)的工具;第二個階段伴隨著大模型的加持,逐漸變成了人類的助手,可以完成各種通用的任務(wù);第三個階段開始可以提供主動的服務(wù)和情感的陪伴,成為家庭的新成員。
他希望,可以讓每一臺車都擁有有趣的靈魂。
從2021年商湯絕影首次以獨立品牌亮相,到如今系列生成式AI產(chǎn)品的發(fā)布。近4年時間,商湯絕影完成了在汽車領(lǐng)域全產(chǎn)品譜系的布局。下一步,在持續(xù)落地智能座艙的同時,它也將全力推進輔助駕駛方案的量產(chǎn)交付。
作為一家以相對“輕量化”的人工智能起家的企業(yè),商湯即將要在強“制造”的汽車智能化領(lǐng)域再次證明自己。
01、智駕進入生成式階段,加速量產(chǎn)落地
與智能汽車的發(fā)展歷程一樣,王曉剛認為,智駕演進也經(jīng)歷了三個階段:規(guī)則式智駕、端到端智駕和生成式智駕。
“現(xiàn)在這個階段是端到端數(shù)據(jù)驅(qū)動的方式?!痹诓稍L環(huán)節(jié),王曉剛稱,這種方式有自己的問題。
一是它對于數(shù)據(jù)量和質(zhì)量的依賴。由于它是直接根據(jù)輸入的圖像視頻去推測車輛行駛軌跡,是模仿人類駕駛的行為,但人類在面對比較困境場景時,90%的駕駛行為是不太好的,因此只有10%、甚至1%高水平的數(shù)據(jù),需要大量數(shù)據(jù)學(xué)習,對數(shù)據(jù)深度依賴。
二是端到端自動駕駛具有不確定性。一些問題場景沒辦法復(fù)現(xiàn),它的解決方式是通過采集大量類似的其他場景重新訓(xùn)練模型。模型更新后,之前所關(guān)心的特定場景能否被解決,是不一定,甚至存在已解決場景回退的現(xiàn)象。
如今,伴隨著對自動駕駛安全性、確定性要求更高,更加依賴于云端的模擬仿真,包括大模型。
因此,王曉剛表示,下一個階段智能駕駛進入到生成式階段,其中很重要的技術(shù)是世界模型。它能夠非常準確的重建,并且模擬泛化現(xiàn)實物理世界,在重構(gòu)世界里去確定性的解決需要解決的問題。同時,還能基于該場景進行泛化,生成出很多類似問題的場景。
“這些場景,無論是采集成本,還是危險性都非常高?!蓖鯐詣偡Q,強化學(xué)習加上世界模型,能夠突破人類駕駛行為的上限。
正是出于這樣的思考,去年11月,商湯絕影發(fā)布了“開悟”世界模型。
今年以來,受到deepseek的啟發(fā),商湯絕影把世界模型從1.0升級到2.0,同時也跟強化學(xué)習進行了結(jié)合,發(fā)布了生成式智駕R-UniAD技術(shù)方案。在王曉剛看來,“未來一定是在云端的研發(fā)比重越來越重?!?/p>
本屆上海車展上,商湯絕影全面展示了R-UniAD技術(shù)方案,基于世界模型和強化學(xué)習兩大核心技術(shù),構(gòu)建集“視覺-語言-行動-強化學(xué)習”于一體的VLAR技術(shù)架構(gòu)。
王曉剛以“施工占道場景”為例,講述了VLAR技術(shù)架構(gòu)是如何處理這一問題的。
首先,以“施工占道剎?!甭窚y視頻作為輸入,R-UniAD基于“絕影開悟”世界進行模型4D仿真復(fù)現(xiàn),然后端到端模型生成該場景下各種可能駕駛策略,并與世界模型生成的環(huán)境交互,反復(fù)強化學(xué)習中找到最優(yōu)路徑,能預(yù)判施工占道,變道繞行。經(jīng)過泛化訓(xùn)練后,遇到類似場景,端到端模型也能及時變道,并顯著提升對此類施工場景的泛化交互能力。
王曉剛指出,生成式R-UniAD突破了現(xiàn)階段端到端范式下數(shù)據(jù)、安全和性能的三大瓶頸,將實采場景數(shù)據(jù)的需求降低兩個數(shù)量級;同時,基于強化學(xué)習算法,模型充分探索多元場景的安全邊界;最終,R-UniAD將能夠?qū)崿F(xiàn)遠超人類的駕駛能力。
至于世界模型,則是生成式智駕的基石所在。如果說R-UniAD是“AI駕駛員”,那么這個世界模型就是它的“駕?!薄?/p>
相比1.0版本主要聚焦2D視頻生成技術(shù)的打磨,2.0版本則進化為近實時在線交互的4D世界模型,能夠?qū)崿F(xiàn)“4D空間自由交互”。
“絕影開悟2.0”具備三大能力,首先是“面向量產(chǎn)的數(shù)據(jù)生成”,它具有多樣性場景的可控生成的能力,能一鍵生成極端高風險場景;其次能實現(xiàn)“復(fù)雜場景自由復(fù)現(xiàn)”,可以根據(jù)不同的需求,修改和調(diào)整場景中的各種要素;最后具備近實時交互能力,比行業(yè)SOTA提升5倍之多,讓仿真訓(xùn)練過程更加高效和逼真,同時感知結(jié)果接近真實精標數(shù)據(jù)98%。
有了世界模型和云端訓(xùn)練之后,對于車端的算力要求依然有需求。
在王曉剛看來,類似deepseek的一些技術(shù)路線的出現(xiàn),可以通過MOE架構(gòu),減少一系列工程化,在同等規(guī)模的參數(shù)規(guī)模情況下降低對算力的依賴。“但永遠都是當算力越大的時候,它能夠應(yīng)對場景復(fù)雜程度能力越強,這個趨勢是確定的,所以算力的要求和模型的能力還是有一個正比的關(guān)系?!?/p>
技術(shù)不斷升級的同時,商湯絕影也在加速推進智駕落地。王曉剛表示,厚積薄發(fā),絕影要全力推進輔助駕駛方案的量產(chǎn)交付。
在輔助駕駛領(lǐng)域,商湯絕影主要有三套方案,基于地平線J6E打造的AD Pro行泊一體方案;基于地平線J6M打造的AD Max城區(qū)領(lǐng)航;基于英偉達Orin/地平線J6P打造的端到端智駕方案。
截至目前,其量產(chǎn)方案已合作中國一汽、廣汽集團、奇瑞汽車和東風汽車4家車企,上車7款車型。
發(fā)布會上,王曉剛宣布,在英偉達DIRVE AGX Thor平臺部署的絕影UniAD一段式端到端量產(chǎn)方案將于2025年第四季度量產(chǎn)交付東風汽車。
除了端到端,東風汽車還將與絕影在開悟世界模型、DriveAGI等方面展開深度合作。
未來,商湯絕影在智駕領(lǐng)域量產(chǎn)將會不斷提速,并加速新技術(shù)的落地?!拔覀冊谂c車企合作過程中,也在幫助提升他們的L3解決方案?!蓖鯐詣?cè)缡钦f。
02、智艙“有趣升級”,發(fā)布全新AI內(nèi)核
與智駕后來者身份,尋求“厚積薄發(fā)”不同,智能座艙一直是商湯的強項,其座艙AI軟件市場份額已連續(xù)5年位列行業(yè)第一。
截至2024年底,商湯絕影已與超30家國內(nèi)外車企達成合作,覆蓋130余款車型,量產(chǎn)交付累計突破360萬輛,其中多數(shù)為座艙領(lǐng)域。
商湯絕影在智能座艙領(lǐng)域主打的是“有趣靈魂”。
去年“絕影日”期間,商湯絕影發(fā)布了“A New Member For U”(你的家庭新成員),其三大特點是察言觀色,無時不在,心有靈犀,背后的技術(shù)支撐是原生流式多模態(tài)的大模型。
今年上海車展上,商湯絕影又對其進行了升級,背后融入了“DeepSeek”的思路。
實際上,自DeepSeek“火了”后,很多車企將其接入座艙之中。對此,王曉剛表示,如果只是非常簡單的把DeepSeek連接到座艙里面,其實是不適合的,因為其設(shè)計并不是為了座艙的交互環(huán)境,需要在車艙進行優(yōu)化。
當然,他也認為,DeepSeek加入后的想象空間。他表示,同樣的算力,通過MOE的架構(gòu),可以去部署更大的模型,這些模型可以節(jié)省帶寬、節(jié)省算力,帶來更好的體驗,這也是商湯絕影研發(fā)的方向。
“我們是把DeepSeek中核心技術(shù)用到了SenseAuto-chat模型里,進行了升級。同時,結(jié)合多模態(tài)的模型,實現(xiàn)了深度推理?!蓖鯐詣傊赋?,新的“New Member”則是基于此打造,帶來了三大核心功能。
首先是擁有了多模態(tài)識人能力,不需要用戶專門進行注冊,它在座艙多人交互的過程推測出每個人的名字,與相貌的結(jié)合,人物之間的關(guān)系,并在與用戶長期互動過程當中,記住生活的點滴,產(chǎn)生共情,從而更貼心地進行互動。
其實是具備深度思考的能力。當用戶提出需求時,它會結(jié)合記憶與場景,主動分析疲憊情緒、家庭需求甚至天氣變化進行綜合性的深度思考,然后給出最合適的方案。
最后,是免喚醒的多人多輪對話能力。之前行業(yè)做到的是大模型一對一的交流,如今New Member未被喚醒也能關(guān)注并理解座艙內(nèi)成員間的對話,并能隨時參與到對話當中,做到“不過度打擾,但時刻陪伴”。
有趣靈魂背后,需要強大技術(shù)底座支撐。為此,商湯絕影打造了類人情感的AI內(nèi)核,即專為車載AIOS打造的AI內(nèi)核“絕影千機”。
王曉剛表示,該產(chǎn)品最核心的三大技術(shù)包括MOE多模態(tài)大模型、類人記憶框架以及原生智能體框架。同時,AI 基礎(chǔ)系統(tǒng)模塊、AIOS 工具鏈和生成式UI等外圍技術(shù),為三大核心模塊提供支持與交互。
“現(xiàn)有的這些操作系統(tǒng),包括車企的,覆蓋范圍比較廣?!蓖鯐詣偡Q,商湯絕影的“千機”更關(guān)注AI相關(guān)的大模型,這些也是商湯的強項。未來,絕影將把這些AI內(nèi)核和主機廠操作系統(tǒng)結(jié)合在一起,形成AI的操作系統(tǒng),推動智能座艙向更加高級的智能體進化。
王曉剛還強調(diào),依托于“日日新SenseNova V6”基模型,商湯絕影構(gòu)建了覆蓋0.1B至70B汽車垂類模型矩陣,模型首字延遲小于300ms,吐字速度高達47 Tokens/s,性能超越DeepSeek,還能在快慢思考之間自如切換,以滿足各種場景需求。
同時,具備類人情感的座艙系統(tǒng),離不開記憶。商湯絕影構(gòu)建了業(yè)內(nèi)首個端側(cè)類人記憶框架,賦予AIOS真正的認知力與成長性,每一次交互都讓它更懂用戶。
為了便于打造智能體生態(tài),商湯絕影還構(gòu)建了業(yè)內(nèi)首個支持MCP協(xié)議的端側(cè)原生智能體框架。它具備自主規(guī)劃能力,可進行多步的精準規(guī)劃和執(zhí)行。它支持MCP規(guī)范,能快速接入各類生態(tài)服務(wù)和工具能力,目前已集成100+智能體與1000+ API。這個框架還支持多智能體協(xié)調(diào)機制,能夠?qū)崿F(xiàn)并發(fā)、串行及混合模式下的高效協(xié)同,整體性能提升超過30%。
此外,基于語言大模型、多模態(tài)大模型、文生圖大模型和“大醫(yī)”醫(yī)療大模型等組成的 AI 大模型體系,商湯絕影構(gòu)建了健康管家、安全衛(wèi)士、3D交互等AI座艙創(chuàng)新產(chǎn)品矩陣。不斷升級智能座艙相關(guān)產(chǎn)品。
智駕落地加速、智艙不斷創(chuàng)新。在AI與汽車深度融合的新時代,商湯絕影在智能汽車領(lǐng)域的探索還在不斷深入。