這幾天的主題是“汽車”——“智能”汽車、“人形”汽車、“飛行”汽車。一樣的配方,不一樣的味道。
現(xiàn)階段,談?wù)摗熬呱碇悄堋边€為時尚早,機(jī)器人本體是具身,而實(shí)現(xiàn)端到端VLA的“大腦”才是終極的智能。如何實(shí)現(xiàn),技術(shù)路線都還沒有定論,都在摸著石頭過河,這會是一個極其艱難的時期。
所有機(jī)器人本體廠商,都在不斷強(qiáng)化專項動作的能力,但這個意義對于未來的真正的具身智能意義不大,只在于展示人形機(jī)器人本體的魯棒性(雖然這也很重要)。汽車本身也是具身智能的一個載體,真正實(shí)現(xiàn)自動駕駛(Full-Self Drive)才算具身智能有真正的落地應(yīng)用。有意思的是,Transformer(變形金剛)正好是車和人形機(jī)器人的復(fù)合體,而Transformer架構(gòu)恰好又是端到端大模型的底層架構(gòu),這也許是冥冥中來自塞博坦星的暗示吧。
但是,自動駕駛過去十年的努力也證實(shí)了,依賴規(guī)則和策略設(shè)定的模式來實(shí)現(xiàn)自動駕駛,是突破不了L3這一層級的,端到端才是提升質(zhì)變的希望。老黃也一直把物理AI掛在嘴邊,這到底是個什么東西?要理解物理AI,我們必須要回頭看看人工智能的發(fā)展史。雖然普遍認(rèn)為1950年的圖靈測試,是人工智能在學(xué)術(shù)界的開端,但真正讓普羅大眾接觸到AI,也就短短15年的時間。
這15年的時間里,AI應(yīng)用的落地經(jīng)歷了兩個階段,第一階段是感知AI,也就是圖像語音識別、自然語言語義識別,最普及的應(yīng)用就是人臉識別,現(xiàn)在刷臉已經(jīng)深入每個人的生活,對應(yīng)的技術(shù)模型是卷積神經(jīng)網(wǎng)絡(luò),比如AlexNet。
第二個階段就是現(xiàn)在最熟悉的生成式AI,基礎(chǔ)大模型帶來的能力,比如大語言模型、多模態(tài)大模型,也就是AI生成文本、圖片、視頻,典型應(yīng)用包括ChatGPT、Midjourney、Sora等,對應(yīng)的技術(shù)模型就是Transformer基礎(chǔ)架構(gòu)。
第三個階段就是大家正在積極圍觀的AI Agent,智能體,不再依賴prompt,能夠自主規(guī)劃,自主決策,從頭到尾完成一項完整的任務(wù),典型應(yīng)用就是智能體,對應(yīng)著推理大模型和多模態(tài)大模型,以及多種模型的通力合作,完成具體任務(wù)。
第四個階段就是老黃所說的物理AI,是AGI的終極形態(tài),不知道大家意識到一個問題沒有,到目前沒位置,還沒有智能體能夠?qū)崿F(xiàn)和物理世界的交互,不管是感知、生成還是Agent,基本都局限于數(shù)字世界,沒有智能體能夠反作用于物理世界,智能汽車算是有這個苗頭了,但是和機(jī)器人能夠抓取放還是兩個層面的物理世界交互。
隨意未來跨域數(shù)字世界和物理世界這道鴻溝,機(jī)器人成為端到端大模型的載體,才算是真正進(jìn)入到通用人工智能AGI時代。