2025年5月7日,理想汽車舉辦「AI Talk 第二季」并就VLA司機大模型等一系列內(nèi)容展開。在當下自動駕駛行業(yè)普遍陷入“功能瓶頸”與“用戶信任焦慮”之時,VLA不僅是一項技術(shù)成果,更是一種戰(zhàn)略宣言。此前,由ChatGPT帶動的大模型浪潮逐漸從語言走向多模態(tài)之后,VLA的出現(xiàn)也可以被視為一場在垂直場景中“自我閉環(huán)”的工程性嘗試,它不僅標志著理想汽車正式跨入人工智能核心研發(fā)陣地,也將自動駕駛從“功能層”推到了“智能協(xié)作層”。
自動駕駛,從功能堆疊到智能協(xié)作
過去幾年,整個智能駕駛行業(yè)在“端到端”和“規(guī)則算法”之間來回搖擺。技術(shù)社區(qū)爭論模型結(jié)構(gòu),資本市場押注落地節(jié)奏,而用戶層面則在體驗不穩(wěn)定與安全焦慮中漸趨疲勞。
理想VLA的意義在于,它不是對已有路線的加強版,而是結(jié)構(gòu)性的方向重建。VLA全稱為Vision-Language-Action,即視覺-語言-行為三位一體的大模型體系。它具備三種能力融合輸出的能力:看清世界(3D空間建模)、理解語義(語言智能)、做出合理決策(行為生成),最終讓駕駛系統(tǒng)從“被動反應(yīng)”轉(zhuǎn)為“主動協(xié)同”。這不是更聰明的工具,而是一個有基本判斷力的智能體。換句話說,VLA不僅是“開得更好”,而且是“開得像人”。
技術(shù)進化路徑背后,是對工程規(guī)律的堅持
VLA不是天降成果,而是理想從規(guī)則系統(tǒng)、端到端架構(gòu)、再到多模態(tài)融合長期積累的結(jié)果。在理想汽車內(nèi)部,VLA的研發(fā)并不是跨越式推進,而是經(jīng)過工程邏輯深度打磨的自然演進。
李想在AI Talk中明確表達:“VLA不是突變,而是進化?!边@個觀點背后的意思是——理想從一開始就沒有打算跳過模型階段或捷徑式追趕,而是清楚每一步架構(gòu)演化的技術(shù)條件和數(shù)據(jù)支撐要求。從規(guī)則到端到端+VLM,再到VLA,是基于場景、數(shù)據(jù)體系、工程結(jié)構(gòu)三者耦合之后的結(jié)果,而不是某種參數(shù)堆疊下的偶然成功。
值得注意的是,VLA并非現(xiàn)有多模態(tài)模型的疊加。理想重構(gòu)了推理鏈路、推理方式和輸出路徑,引入action token機制、diffusion軌跡預(yù)測,以及投機推理與強化學(xué)習聯(lián)合優(yōu)化,以適配自動駕駛場景中的實時性、穩(wěn)定性與安全性。這是一套“為車而生”的AI結(jié)構(gòu),而非從通用AI平臺遷移而來的兼容方案。
理想不談“AI”,只談怎么落地
理想汽車在技術(shù)敘事中有意淡化“AI能力”的渲染,轉(zhuǎn)而強調(diào)系統(tǒng)結(jié)構(gòu)、行為一致性與用戶信任。
VLA模型在技術(shù)架構(gòu)上具備高復(fù)雜度,但其落地思路相對清晰:VLA將部署在車端運行,并具備獨立空間理解、語言交互與軌跡控制能力。配合理想自研的星環(huán)OS及自動駕駛控制系統(tǒng),理想意圖構(gòu)建的是一套從AI底座模型、到智能決策鏈路、再到系統(tǒng)調(diào)度的閉環(huán)生態(tài)。這意味著,理想并不把AI視作獨立功能層,而是產(chǎn)品核心結(jié)構(gòu)的一部分。正如理想在AI Talk中強調(diào)的,只有當AI跨域了信息工具、輔助工具之后,真正成為生產(chǎn)工具,才是人工智能爆發(fā)的時刻,而理想在做的輔助駕駛,正在一步步走向生產(chǎn)工具。
“司機智能體”的戰(zhàn)略含義
自動駕駛行業(yè)發(fā)展到今天,依然未能擺脫“高上限、低下限”的結(jié)構(gòu)困境。系統(tǒng)在封閉測試場景中表現(xiàn)優(yōu)異,卻在真實環(huán)境中常常暴露“不像人”的不穩(wěn)定行為——忽視潛規(guī)則、不合時宜的變道、對行人意圖判斷失誤等,都是典型問題。
VLA的設(shè)計目的之一,是通過“超級對齊”手段,解決行為與人類駕駛邏輯不一致的問題。理想通過引入大量用戶接管數(shù)據(jù)、駕駛偏好樣本以及城市駕駛中的長尾工況數(shù)據(jù),用RLHF方法將系統(tǒng)行為與人類習慣進行結(jié)構(gòu)性對齊,降低用戶的不安全感與陌生感。這種“像人開車”的一致性,是理想賦予VLA最重要的評價標準之一。
VLA的戰(zhàn)略價值,也不僅限于自動駕駛。其技術(shù)架構(gòu)本質(zhì)上是一種通用型物理世界智能體模型(Physical AI),這讓理想在汽車這一高復(fù)雜度、多變量場景中率先跑通“空間-語言-行為”的智能融合邏輯,也為未來AI在機器人、智能家居等場景的延展埋下了路徑。
理想正在在走一條沒有對手走過的路
自動駕駛不是效率問題,而是信任問題。這句話在AI Talk里雖未被明確說出,但貫穿始終。當前的AI行業(yè),概念更新迅速,但多數(shù)企業(yè)的產(chǎn)品進展依然停留在“集成層”。理想選擇自研全棧大模型、重構(gòu)車端架構(gòu)、搭建閉環(huán)系統(tǒng),這種高投入、高工程復(fù)雜度的方式在短期看不討好,但卻是真正走向智能化產(chǎn)品形態(tài)的必要路徑。
VLA不是終點,也不是一次性技術(shù)亮相,而是理想將AI內(nèi)化為產(chǎn)品骨架之后的第一次結(jié)構(gòu)釋放。它未必是標準答案,但提供了值得行業(yè)觀察與深度理解的另一種可能。