正在閱讀:

電廠 | 輔助駕駛受質(zhì)疑 李想拋出了VLA:這是理想的解決方案

掃一掃下載界面新聞APP

電廠 | 輔助駕駛受質(zhì)疑 李想拋出了VLA:這是理想的解決方案

在2024年12月的AI Talk上,理想汽車創(chuàng)始人李想主要討論的理想汽車在人工智能時代的愿景和長遠規(guī)劃等。

在2024年12月的AI Talk上,理想汽車創(chuàng)始人李想主要討論的理想汽車在人工智能時代的愿景和長遠規(guī)劃等。

比如,他說“理想汽車未來要成為一家人工智能企業(yè),要做的不是汽車的智能化,而是人工智能的汽車化”,“理想汽車的愿景是要通過人工智能技術(shù)將物理世界和數(shù)字世界進行融合,讓有限的空間實現(xiàn)無限的延伸,推動人工智能普惠到每一個家庭?!?/p>

他還把理想汽車實現(xiàn)這一愿景分為三個階段,理想汽車也根據(jù)三個階段的演進實行三步走戰(zhàn)略,這被認為是理想汽車面向人工智能時代轉(zhuǎn)型的路線圖。

AI Talk 第二季,李想主要分享了他對人工智能的一些新思考,以及這些思考如何落在理想汽車最新的產(chǎn)品和技術(shù)進展中。他還圍繞著“人工智能”這個話題談到了DeepSeek這家新興公司以及特斯拉、蘋果等科技行業(yè)的龐然大物。

他試圖通過這一次的AI Talk讓外界更加了解理想汽車的內(nèi)核,以及由內(nèi)在的企業(yè)價值向外延伸的社會責任。

輔助駕駛的十字路口

在一系列驚人事故之后,相關(guān)部門叫停了車企在輔助駕駛的激進宣傳,甚至還有人要求叫停輔助駕駛。

李想把這段時間稱為“黎明前的黑暗”:“我覺得黎明馬上就要來了。但是會先經(jīng)歷一個黑暗的過程,之所以有黑暗是因為要迎來黎明。我覺得這是今天這么一個階段。”

此前,理想汽車用增程方案解決電池續(xù)航不足、電池原材料成本高昂的問題;隨著純電車型推出的5C技術(shù)也是理想汽車面向純電汽車充電慢、等待時間長的問題。

業(yè)界早已形成共識,在自動駕駛的不同階段,L3為有監(jiān)督智能駕駛,不是L2輔助駕駛的延續(xù),而是L4高度自動駕駛的先導程序。

輔助駕駛其實只實現(xiàn)了特定功能,而自動駕駛則關(guān)乎整體能力。傳統(tǒng)的L2輔助駕駛依賴上一代自動駕駛方案,通過預(yù)設(shè)條件來執(zhí)行不同場景下的智駕功能,無法窮盡所有的corner case(極端情況)。

理想汽車的解決方法就是借鑒人類駕駛技能提升的過程,用人工智能的方式實現(xiàn)汽車駕駛的智能化。

 

AI工具的三個層級

李想把人工智能工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。當前絕大部分人仍將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價值。成為輔助工具后,AI可以提升效率,比如現(xiàn)在的L2\L2+輔助駕駛,但仍需人類參與。未來,AI發(fā)展為生產(chǎn)工具后,將能獨立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。

對應(yīng)的,理想汽車的輔助駕駛也將經(jīng)歷三個階段,第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。

端到端模型在處理復雜問題時存在局限,首先它是一個黑盒子,反應(yīng)到汽車和駕駛員上就是所謂的“端味”,實際上這意味著端到端模型對復雜路況的理解比較慢,比如復雜修路,規(guī)則算法可能會撞上去,而端到端可以處理,但效率還不夠高,可能就導致車輛停下來。另外一個問題是它無法和人溝通,這也是為什么現(xiàn)在端到端模型仍然需要人類駕駛員完全監(jiān)督。

VLM視覺語言模型是一個開源模型,在交通領(lǐng)域的能力有限。因此,理想汽車輔助駕駛的第三個階段是VLA(Vision-Language-Action Model,視覺語言行動模型)的應(yīng)用——讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,是一個像人類司機一樣工作的司機大模型。

從端到端+VLM到VLA的進化

在端到端的基礎(chǔ)上,VLA將開啟“人類智能”的階段,能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、思維鏈推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類視覺系統(tǒng)和大腦的運作方式。

VLA的訓練分為預(yù)訓練、后訓練和強化訓練三個環(huán)節(jié),類似于人類學習駕駛技能的過程。預(yù)訓練相當于人類學習物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D 視覺數(shù)據(jù)、交通相關(guān)的語言語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端運行的端側(cè)模型。

后訓練就像人類去駕校學習開車的過程。隨著動作數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機大模型。得益于短鏈條的思維鏈推理,以及Diffusion擴散模型對于他車軌跡和環(huán)境的預(yù)測,VLA具備實時性的特點,實現(xiàn)了在復雜交通環(huán)境中的博弈能力。

強化訓練相當于人類在社會中實際開車練習,目標是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,最終目標是超越人類駕駛水平。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)完成安全對齊,使模型遵守交通規(guī)則,貼合中國用戶的駕駛習慣;二是將純強化學習模型放入世界模型中訓練,提升舒適性,避免碰撞事故,遵守交通規(guī)則。經(jīng)過預(yù)訓練、后訓練和強化訓練后,VLA司機大模型即可部署至車端運行。

VLA司機大模型以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。

2024年底,理想汽車組建了超過100人的超級對齊團隊,這個團隊的主要工作就是為司機Agent注入職業(yè)素養(yǎng),就像專門的培訓員,把一名普通的網(wǎng)約車司機培養(yǎng)成一名高級且全面的專業(yè)司機。

另外,為了解決VLA司機大模型底層的端到端的模型黑盒問題,理想汽車利用重建和生成兩種路徑,打造了真實、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素。基于世界模型的仿真能力,VLA可以在世界模型中低成本、準確地驗證現(xiàn)實問題,提升解決問題的效率,有效應(yīng)對模型黑盒帶來的挑戰(zhàn)。

最終,用戶可以從三個維度評價司機Agent:專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。這些正是解決了端到端大模型主導的輔助駕駛系統(tǒng)產(chǎn)生的其他問題,在車輛和用戶之間建立起信任。

巨額自研投入+對外合作學習

目前,理想汽車超100億的年研發(fā)投入已有接近一半聚焦于人工智能,并建立了四支AI團隊,分別在輔助駕駛、理想同學、智能商業(yè)和智能工業(yè)等領(lǐng)域解決不同的問題。

在VLA上,理想汽車原本的計劃是今年9月能夠做一個非常好的語言模型出來,然后再往下訓練VLA。“但是站在今天來預(yù)測,我不認為我們做出來的語言模型能力會比DeepSeek更強。而且后者開源非常徹底?!?/p>

理想汽車的CTO謝炎和理想汽車基座模型負責人陳偉都堅持認為,“理想汽車應(yīng)該站在巨人的肩膀上,加速VLA中L(語言)的部分。”這是李想本人也沒有想到的。

“我們在人工智能戰(zhàn)略小組里不停討論,我和謝炎也通了很多電話,其實我后來發(fā)現(xiàn)我們都不糾結(jié),因為不管是什么,我們最終的目標都是為用戶推出最佳體驗的產(chǎn)品和服務(wù)?!崩钕胝f,因為DeepSeek開源,理想汽車的VLA研發(fā)時間縮短了9個月,這背后意味著巨大的收益。

也是在DeepSeek開源的影響下,李想和謝炎都認為,理想汽車也能對社會做一些貢獻,所以他們決定把自研整車操作系統(tǒng)理想星環(huán)OS開源——理想在這套操作系統(tǒng)研發(fā)上花了4年時間。

 

5月8日,理想汽車再次用非常蘋果的風格發(fā)布了理想L系列智能煥新版,而蘋果也是李想經(jīng)常掛在嘴邊的一家科技公司——它并不是一家被認為是引領(lǐng)了人工智能的公司。李想認為,面向人工智能時代,理想汽車更需要向蘋果和特斯拉這樣的公司學習,包括學習他們扎實打好基本功和管理規(guī)?;哪芰?。

“在人工智能時代,基本功是不可跳躍的。”李想說。

 

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

李想

  • 汽車早報|長安汽車辟謠并入東風集團 理想汽車回應(yīng)李想年薪6.39億
  • 理想汽車CEO李想談特斯拉FSD:基本功非常扎實

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

電廠 | 輔助駕駛受質(zhì)疑 李想拋出了VLA:這是理想的解決方案

在2024年12月的AI Talk上,理想汽車創(chuàng)始人李想主要討論的理想汽車在人工智能時代的愿景和長遠規(guī)劃等。

在2024年12月的AI Talk上,理想汽車創(chuàng)始人李想主要討論的理想汽車在人工智能時代的愿景和長遠規(guī)劃等。

比如,他說“理想汽車未來要成為一家人工智能企業(yè),要做的不是汽車的智能化,而是人工智能的汽車化”,“理想汽車的愿景是要通過人工智能技術(shù)將物理世界和數(shù)字世界進行融合,讓有限的空間實現(xiàn)無限的延伸,推動人工智能普惠到每一個家庭?!?/p>

他還把理想汽車實現(xiàn)這一愿景分為三個階段,理想汽車也根據(jù)三個階段的演進實行三步走戰(zhàn)略,這被認為是理想汽車面向人工智能時代轉(zhuǎn)型的路線圖。

AI Talk 第二季,李想主要分享了他對人工智能的一些新思考,以及這些思考如何落在理想汽車最新的產(chǎn)品和技術(shù)進展中。他還圍繞著“人工智能”這個話題談到了DeepSeek這家新興公司以及特斯拉、蘋果等科技行業(yè)的龐然大物。

他試圖通過這一次的AI Talk讓外界更加了解理想汽車的內(nèi)核,以及由內(nèi)在的企業(yè)價值向外延伸的社會責任。

輔助駕駛的十字路口

在一系列驚人事故之后,相關(guān)部門叫停了車企在輔助駕駛的激進宣傳,甚至還有人要求叫停輔助駕駛。

李想把這段時間稱為“黎明前的黑暗”:“我覺得黎明馬上就要來了。但是會先經(jīng)歷一個黑暗的過程,之所以有黑暗是因為要迎來黎明。我覺得這是今天這么一個階段。”

此前,理想汽車用增程方案解決電池續(xù)航不足、電池原材料成本高昂的問題;隨著純電車型推出的5C技術(shù)也是理想汽車面向純電汽車充電慢、等待時間長的問題。

業(yè)界早已形成共識,在自動駕駛的不同階段,L3為有監(jiān)督智能駕駛,不是L2輔助駕駛的延續(xù),而是L4高度自動駕駛的先導程序。

輔助駕駛其實只實現(xiàn)了特定功能,而自動駕駛則關(guān)乎整體能力。傳統(tǒng)的L2輔助駕駛依賴上一代自動駕駛方案,通過預(yù)設(shè)條件來執(zhí)行不同場景下的智駕功能,無法窮盡所有的corner case(極端情況)。

理想汽車的解決方法就是借鑒人類駕駛技能提升的過程,用人工智能的方式實現(xiàn)汽車駕駛的智能化。

 

AI工具的三個層級

李想把人工智能工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。當前絕大部分人仍將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價值。成為輔助工具后,AI可以提升效率,比如現(xiàn)在的L2\L2+輔助駕駛,但仍需人類參與。未來,AI發(fā)展為生產(chǎn)工具后,將能獨立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。

對應(yīng)的,理想汽車的輔助駕駛也將經(jīng)歷三個階段,第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。

端到端模型在處理復雜問題時存在局限,首先它是一個黑盒子,反應(yīng)到汽車和駕駛員上就是所謂的“端味”,實際上這意味著端到端模型對復雜路況的理解比較慢,比如復雜修路,規(guī)則算法可能會撞上去,而端到端可以處理,但效率還不夠高,可能就導致車輛停下來。另外一個問題是它無法和人溝通,這也是為什么現(xiàn)在端到端模型仍然需要人類駕駛員完全監(jiān)督。

VLM視覺語言模型是一個開源模型,在交通領(lǐng)域的能力有限。因此,理想汽車輔助駕駛的第三個階段是VLA(Vision-Language-Action Model,視覺語言行動模型)的應(yīng)用——讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,是一個像人類司機一樣工作的司機大模型。

從端到端+VLM到VLA的進化

在端到端的基礎(chǔ)上,VLA將開啟“人類智能”的階段,能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、思維鏈推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類視覺系統(tǒng)和大腦的運作方式。

VLA的訓練分為預(yù)訓練、后訓練和強化訓練三個環(huán)節(jié),類似于人類學習駕駛技能的過程。預(yù)訓練相當于人類學習物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D 視覺數(shù)據(jù)、交通相關(guān)的語言語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端運行的端側(cè)模型。

后訓練就像人類去駕校學習開車的過程。隨著動作數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機大模型。得益于短鏈條的思維鏈推理,以及Diffusion擴散模型對于他車軌跡和環(huán)境的預(yù)測,VLA具備實時性的特點,實現(xiàn)了在復雜交通環(huán)境中的博弈能力。

強化訓練相當于人類在社會中實際開車練習,目標是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,最終目標是超越人類駕駛水平。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)完成安全對齊,使模型遵守交通規(guī)則,貼合中國用戶的駕駛習慣;二是將純強化學習模型放入世界模型中訓練,提升舒適性,避免碰撞事故,遵守交通規(guī)則。經(jīng)過預(yù)訓練、后訓練和強化訓練后,VLA司機大模型即可部署至車端運行。

VLA司機大模型以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。

2024年底,理想汽車組建了超過100人的超級對齊團隊,這個團隊的主要工作就是為司機Agent注入職業(yè)素養(yǎng),就像專門的培訓員,把一名普通的網(wǎng)約車司機培養(yǎng)成一名高級且全面的專業(yè)司機。

另外,為了解決VLA司機大模型底層的端到端的模型黑盒問題,理想汽車利用重建和生成兩種路徑,打造了真實、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素?;谑澜缒P偷姆抡婺芰Γ琕LA可以在世界模型中低成本、準確地驗證現(xiàn)實問題,提升解決問題的效率,有效應(yīng)對模型黑盒帶來的挑戰(zhàn)。

最終,用戶可以從三個維度評價司機Agent:專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。這些正是解決了端到端大模型主導的輔助駕駛系統(tǒng)產(chǎn)生的其他問題,在車輛和用戶之間建立起信任。

巨額自研投入+對外合作學習

目前,理想汽車超100億的年研發(fā)投入已有接近一半聚焦于人工智能,并建立了四支AI團隊,分別在輔助駕駛、理想同學、智能商業(yè)和智能工業(yè)等領(lǐng)域解決不同的問題。

在VLA上,理想汽車原本的計劃是今年9月能夠做一個非常好的語言模型出來,然后再往下訓練VLA?!暗钦驹诮裉靵眍A(yù)測,我不認為我們做出來的語言模型能力會比DeepSeek更強。而且后者開源非常徹底?!?/p>

理想汽車的CTO謝炎和理想汽車基座模型負責人陳偉都堅持認為,“理想汽車應(yīng)該站在巨人的肩膀上,加速VLA中L(語言)的部分。”這是李想本人也沒有想到的。

“我們在人工智能戰(zhàn)略小組里不停討論,我和謝炎也通了很多電話,其實我后來發(fā)現(xiàn)我們都不糾結(jié),因為不管是什么,我們最終的目標都是為用戶推出最佳體驗的產(chǎn)品和服務(wù)?!崩钕胝f,因為DeepSeek開源,理想汽車的VLA研發(fā)時間縮短了9個月,這背后意味著巨大的收益。

也是在DeepSeek開源的影響下,李想和謝炎都認為,理想汽車也能對社會做一些貢獻,所以他們決定把自研整車操作系統(tǒng)理想星環(huán)OS開源——理想在這套操作系統(tǒng)研發(fā)上花了4年時間。

 

5月8日,理想汽車再次用非常蘋果的風格發(fā)布了理想L系列智能煥新版,而蘋果也是李想經(jīng)常掛在嘴邊的一家科技公司——它并不是一家被認為是引領(lǐng)了人工智能的公司。李想認為,面向人工智能時代,理想汽車更需要向蘋果和特斯拉這樣的公司學習,包括學習他們扎實打好基本功和管理規(guī)?;哪芰Α?/p>

“在人工智能時代,基本功是不可跳躍的?!崩钕胝f。

 

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。