正在閱讀:

從BEV感知到端到端模型,智駕行業(yè)“追熱詞”能搶到技術(shù)終局優(yōu)勢(shì)嗎?

掃一掃下載界面新聞APP

從BEV感知到端到端模型,智駕行業(yè)“追熱詞”能搶到技術(shù)終局優(yōu)勢(shì)嗎?

端到端雖不完美,但是現(xiàn)階段行業(yè)最優(yōu)解。

文|飛說(shuō)智行

智能駕駛行業(yè)的發(fā)展有多卷?

要回答這個(gè)問(wèn)題很簡(jiǎn)單,看看車(chē)企、自動(dòng)駕駛公司和智駕方案供應(yīng)商們追逐的技術(shù)焦點(diǎn)變換得有多快就行了。

去年下半年開(kāi)始,蔚來(lái)、小鵬、理想和比亞迪等車(chē)企們向智能駕駛領(lǐng)域快速地奔跑起來(lái),紛紛提出了自身“輕地圖、重感知”的城市NOA落地時(shí)間表,甚至華為和小鵬等企業(yè)還更進(jìn)一步,想要做到真正無(wú)圖的城市NOA。

一時(shí)間,BEV+Transformer和OCC占用網(wǎng)絡(luò)等一系列的技術(shù)名詞,就成為了整個(gè)智能駕駛行業(yè)的熱詞,推進(jìn)落地開(kāi)城和直播智駕過(guò)程也成為了眾多車(chē)企展現(xiàn)自身技術(shù)優(yōu)勢(shì)的最直接方式。

殊不知,這樣卷了半年時(shí)間,從今年初開(kāi)始,由于受到了特斯拉的啟發(fā),整個(gè)智能駕駛行業(yè)的風(fēng)向快速轉(zhuǎn)變——齊刷刷盯向了端到端技術(shù)(End-to-End)。

端到端自動(dòng)駕駛系統(tǒng)圖示,圖源毫末智行官方公眾號(hào)

最近,理想汽車(chē)舉辦了智能駕駛夏季發(fā)布會(huì),首次公開(kāi)展示了其端到端自動(dòng)駕駛技術(shù)架構(gòu),該架構(gòu)主要由端到端模型、VLM視覺(jué)語(yǔ)言模型、世界模型三部分共同構(gòu)成,也就是其CEO李想此前提到的“系統(tǒng)1”和“系統(tǒng)2”,他們也宣布這套系統(tǒng)是部署到車(chē)端的智駕方案。

蔚來(lái)和小鵬,自然也沒(méi)有慢下腳步。前者近期在內(nèi)部單獨(dú)設(shè)立了一個(gè)大模型部門(mén),專(zhuān)門(mén)負(fù)責(zé)端到端系統(tǒng)的研發(fā)工作,蔚來(lái)方面也對(duì)飛說(shuō)智行表示,下半年在智駕方面他們會(huì)有很多動(dòng)作。

小鵬汽車(chē)在今年5月也發(fā)布了量產(chǎn)上車(chē)的端到端大模型——由神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語(yǔ)言模型XBrain構(gòu)成,其掌門(mén)人何小鵬也宣布小鵬汽車(chē)到2025年將在國(guó)內(nèi)實(shí)現(xiàn)L4級(jí)別智駕體驗(yàn)。

除了“蔚小理”之外,長(zhǎng)城汽車(chē)、比亞迪和廣汽等國(guó)內(nèi)自主車(chē)企,商湯絕影、華為、騰訊、百度Apollo和元戎啟行等科技企業(yè),也在今年紛紛公布了各自在端到端領(lǐng)域的計(jì)劃和落地進(jìn)展,端到端技術(shù)由此就成為了整個(gè)行業(yè)競(jìng)逐的關(guān)鍵技術(shù)標(biāo)的。

從追求BEV+Transformer,到競(jìng)逐端到端技術(shù)方案,這屬于企業(yè)戰(zhàn)略層面的變化。但與此同時(shí),由于上一代方案還未很好落地、下一代方案就來(lái)了的現(xiàn)實(shí),如何快速變換研發(fā)策略,也考驗(yàn)著每一家企業(yè)的智駕研發(fā)團(tuán)隊(duì)們。

以上這些企業(yè)之所以會(huì)紛紛競(jìng)逐端到端技術(shù),也是因?yàn)檫@一技術(shù)被行業(yè)大多數(shù)人視為是突破目前智駕領(lǐng)域天花板的有效方法,誰(shuí)能搶到這一技術(shù)的高地,誰(shuí)就能取得較大的行業(yè)優(yōu)勢(shì)。

只不過(guò),也有人認(rèn)為端到端技術(shù)并不是智駕行業(yè)未來(lái)的唯一路徑,那么端到端是智能駕駛行業(yè)的終局嗎?智能駕駛行業(yè)競(jìng)逐的終點(diǎn)到底在哪里?在目前還未看清前路的行業(yè)背景下,這些問(wèn)題值得討論。

01 摸到“天花板”后,行業(yè)奔向端到端

技術(shù)的變革,往往是由問(wèn)題推動(dòng)的。

一般而言,實(shí)現(xiàn)高階智駕,要基于智駕算法為基礎(chǔ)。前些年,行業(yè)普遍采用的是傳統(tǒng)自動(dòng)駕駛算法方案,即感知-決策-規(guī)劃-控制的多模塊算法,這套算法雖然在面對(duì)簡(jiǎn)單駕駛場(chǎng)景上表現(xiàn)較好,但在處理復(fù)雜的高階智駕場(chǎng)景時(shí),就會(huì)出現(xiàn)較多的瓶頸。

首先是在開(kāi)城速度和體驗(yàn)上,由于多模塊智駕算法架構(gòu)是基于人類(lèi)編寫(xiě)的代碼和規(guī)則驅(qū)動(dòng)的,在遇到不熟悉的Corner cases時(shí)會(huì)出現(xiàn)明顯的頓挫感,同時(shí)在泛化性方面也有明顯不足,導(dǎo)致拓展新城市時(shí)效率不足。

另外,雖然很多車(chē)企喊出了輕圖或者無(wú)圖的口號(hào),但在智駕系統(tǒng)運(yùn)行時(shí)依舊會(huì)或多或少利用到高精地圖資源;還有在算法訓(xùn)練方面,模塊間都需要人工規(guī)控和訓(xùn)練的干預(yù),這些都增加了車(chē)企的成本壓力。

這樣的技術(shù)問(wèn)題,一時(shí)間成為了整個(gè)智駕行業(yè)共同面對(duì)的困境。但與此同時(shí),一篇論文的出現(xiàn),為整個(gè)行業(yè)帶來(lái)了啟示。

去年6月,一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)的論文出現(xiàn)在行業(yè)面前,該論文因?yàn)樘岢隽烁兄獩Q策一體化的端到端自動(dòng)駕駛通用大模型UniAD,獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì)CVPR最佳論文獎(jiǎng)。

UniAD算法架構(gòu)圖,圖源《Planning-oriented Autonomous Driving》

這一端到端算法模型,首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下,把全棧的自動(dòng)駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中,簡(jiǎn)言之,就可以讓算法實(shí)現(xiàn)從感知輸入直接輸出路徑?jīng)Q策的過(guò)程。

使用端到端技術(shù)來(lái)構(gòu)建智能駕駛算法的直接好處,可以減少傳統(tǒng)模塊化算法信息傳遞時(shí)的噪音和減損,來(lái)提升整體算法運(yùn)行的效率。此外,由于端到端算法無(wú)需人工編寫(xiě)冗余的規(guī)則和代碼,大大降低了人工成本的同時(shí),神經(jīng)網(wǎng)絡(luò)算法還具備較強(qiáng)的泛化能力,可以提升智駕系統(tǒng)落地和開(kāi)城的效率。

學(xué)術(shù)研究帶來(lái)啟示后,產(chǎn)業(yè)落地快速跟進(jìn)。

特斯拉成為率先吃端到端這只“螃蟹”的車(chē)企之一。去年8月,特斯拉FSD V12 版本問(wèn)世,按照當(dāng)時(shí)其官方的介紹,這一版本可以實(shí)現(xiàn)“一端輸入攝像頭等傳感器獲得的數(shù)據(jù),另一端直接輸出車(chē)該怎么開(kāi)?!庇纱诉@一版本也被國(guó)內(nèi)一些媒體同行宣傳為“端到端技術(shù)正式上車(chē)”。

這之后,一邊是埃隆·馬斯克通過(guò)社交媒體表示“FSD V12通過(guò)神經(jīng)網(wǎng)絡(luò),人工編程的 C++控制代碼由30萬(wàn)行縮減到了3000行”來(lái)體現(xiàn)端到端技術(shù)的優(yōu)勢(shì);另一邊,隨著今年2月FSD V12在美國(guó)開(kāi)啟推送后,其絲滑且流暢的路測(cè)視頻也讓整個(gè)智駕行業(yè)為之震動(dòng)。

特斯拉領(lǐng)頭后,“蔚小理”等眾多車(chē)企們迅速開(kāi)始追趕。

去年12月,理想汽車(chē)宣布完成了OTA5.0更新,按照其官方介紹,基于端到端架構(gòu),實(shí)現(xiàn)了對(duì)BEV大模型、MPC模型預(yù)測(cè)控制以及時(shí)空聯(lián)合規(guī)劃等能力的整合,同時(shí)他們還使用了OCC占用網(wǎng)絡(luò)和神經(jīng)先驗(yàn)網(wǎng)絡(luò)NPN作為架構(gòu)補(bǔ)充。

再到上周,理想系統(tǒng)化地展示了他們?cè)诙说蕉俗詣?dòng)駕駛算法架構(gòu),并且提出了端到端“4D One Model”架構(gòu),輸入傳感器信息,輸出行駛軌跡。但需要注意的是,這一架構(gòu)思路類(lèi)似于上文提到的端到端自動(dòng)駕駛通用大模型UniAD架構(gòu)。

理想汽車(chē)4D One Model架構(gòu)圖,圖源理想汽車(chē)

以智能化為標(biāo)簽的小鵬汽車(chē),在今年1月全國(guó)智駕啟動(dòng)發(fā)布會(huì)也宣布端到端大模型會(huì)在未來(lái)全面上車(chē)。四個(gè)月后,他們就發(fā)布了量產(chǎn)上車(chē)的端到端大模型——神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語(yǔ)言模型XBrain。

在小鵬汽車(chē)智能駕駛技術(shù)負(fù)責(zé)人李力耘看來(lái),“XBrain、XNet、XPlanner,既有聯(lián)系又有分工,能夠非常好地提升AI智駕能力上限?!?/p>

小鵬汽車(chē)端到端大模型架構(gòu)圖,圖源小鵬汽車(chē)官網(wǎng)

對(duì)于蔚來(lái)來(lái)說(shuō),在端到端大模型方面采用的是漸進(jìn)式的路線。在他們看來(lái)做端到端大模型的前提是要讓智駕各功能模塊都已形成模型化,具備足夠的性能和工程效率。

簡(jiǎn)單說(shuō)就像是先有每塊功能化的拼圖,然后組裝為整張端到端的完整拼圖,不然就像蔚來(lái)智能駕駛研發(fā)副總裁任少卿認(rèn)為的那樣“否則端到端就是個(gè)毒藥?!?/p>

這兩天,蔚來(lái)推送了Banyan 2.6.5版本,其中包括端到端的AEB功能,可以讓AEB避險(xiǎn)能力顯著增強(qiáng)。隨著今年6月蔚來(lái)內(nèi)部智駕團(tuán)隊(duì)架構(gòu)完成調(diào)整后,蔚來(lái)也成為了率先量產(chǎn)端到端智駕功能的車(chē)企。

除了特斯拉,“蔚小理”之外,其他車(chē)企也加到這場(chǎng)端到端大模型的競(jìng)逐賽中。

比如長(zhǎng)城汽車(chē)就推出了名為“SEE”的端到端智駕大模型,從前段時(shí)間的重慶全場(chǎng)景NOA路測(cè)效果來(lái)看,實(shí)現(xiàn)復(fù)雜路段絲滑且流暢通行的同時(shí),還能兼具安全和效率。

同為自主車(chē)企的比亞迪,也在最近宣布已完成端到端無(wú)圖方案的開(kāi)發(fā),目標(biāo)要做到智駕第一梯隊(duì);長(zhǎng)安汽車(chē),也提出了將BAV感知和LLM(大語(yǔ)言模型)端到端融合的構(gòu)想。

車(chē)企之外,諸多自動(dòng)駕駛企業(yè)和科技大廠也在紛紛擁抱端到端技術(shù)。商湯絕影就在今年的北京車(chē)展上,展示了UniAD架構(gòu)的實(shí)車(chē)上路成果,僅靠7顆攝像頭組成的視覺(jué)感知,讓車(chē)輛實(shí)現(xiàn)在城區(qū)乃至鄉(xiāng)村道路環(huán)境中無(wú)圖高階智駕的能力。

商湯絕影UniAD端到端解決方案,圖源商湯絕影官方公眾號(hào)

作為國(guó)內(nèi)自動(dòng)駕駛第一梯隊(duì)企業(yè)的小馬智行,在去年8月就把感知、預(yù)測(cè)、規(guī)控三大傳統(tǒng)模塊打通,統(tǒng)一成端到端自動(dòng)駕駛模型,目前已同步搭載到L4級(jí)自動(dòng)駕駛出租車(chē)和L2級(jí)輔助駕駛乘用車(chē)。

騰訊、百度和華為、也沒(méi)有慢下來(lái)。騰訊在今年4月發(fā)布了行業(yè)首個(gè)汽車(chē)行業(yè)大模型,并設(shè)立了“專(zhuān)云專(zhuān)用”的智能汽車(chē)云雙專(zhuān)區(qū),為自動(dòng)駕駛開(kāi)發(fā)創(chuàng)造了一個(gè)端到端、全程合規(guī)的數(shù)據(jù)閉環(huán)服務(wù)。

同在4月,百度Apollo發(fā)布了支持L4級(jí)自動(dòng)駕駛的端到端大模型ApolloADFM,以聯(lián)合訓(xùn)練的方式實(shí)現(xiàn)端到端無(wú)人駕駛。按照最新的消息,蘿卜快跑第六代無(wú)人車(chē)已經(jīng)全面應(yīng)用了ApolloADFM大模型+硬件產(chǎn)品+安全架構(gòu)的方案。

華為同期也發(fā)布了基于端到端大模型的ASD3.0智駕系統(tǒng)。感知部分采用GOD(General Object Detection,通用障礙物識(shí)別)的大感知網(wǎng)絡(luò),決策規(guī)劃部分采用PDP(Prediction-DecisionPlanning, 預(yù)測(cè)決策規(guī)控)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)決策和規(guī)劃一張網(wǎng)。

就在整個(gè)智能駕駛行業(yè)快速奔向端到端技術(shù)的同時(shí),對(duì)于端到端技術(shù)的能力和邊界的思考也在進(jìn)行著。

02 端到端技術(shù)的“冰山問(wèn)題”

冰山,往往很多人只看到了20%的水面以上部分,而水面之下80%的部分卻很容易被忽略。對(duì)于端到端技術(shù)來(lái)說(shuō),同樣存在這樣的“冰山問(wèn)題”。

就像上文提到的可以降低傳統(tǒng)智駕算法的模塊間信息損減、提升信息的傳輸效率,以及降低算法訓(xùn)練成本和提升泛化效果等等,都屬于端到端技術(shù)對(duì)于智能駕駛算法構(gòu)建的優(yōu)勢(shì),也就是大多數(shù)人看到的那20%部分。

但這些端到端的好處,無(wú)法做到瑜能掩瑕,畢竟端到端技術(shù)的不足和缺陷,也就是藏在“水面”以下的80%,是真實(shí)存在的。

眾所周知,要訓(xùn)練端到端智能駕駛,算力、算法和數(shù)據(jù)三大要素缺一不可。其中,獲取數(shù)據(jù)對(duì)于擁有大規(guī)模量產(chǎn)車(chē)型的車(chē)企和擁有自動(dòng)駕駛車(chē)隊(duì)的自動(dòng)駕駛企業(yè)來(lái)說(shuō),看似并不是什么難事。

而實(shí)際情況是,要訓(xùn)練端到端算法,需要海量且質(zhì)量較高的數(shù)據(jù)才行。按照馬斯克在去年透露的信息,他們?cè)谟?xùn)練FSD時(shí)一般會(huì)用到上千萬(wàn)個(gè)視頻素材,假使每個(gè)視頻以30秒來(lái)計(jì)算,訓(xùn)練端到端模型的數(shù)據(jù)起碼需要幾萬(wàn)小時(shí)的視頻素材。

全球最大的自動(dòng)駕駛公開(kāi)數(shù)據(jù)集Nuplan此前發(fā)布的數(shù)據(jù),他們的數(shù)據(jù)規(guī)模達(dá)到了1200小時(shí),這些數(shù)據(jù)還不是為端到端自動(dòng)駕駛所準(zhǔn)備的。

按照小馬智行CEO樓天城的話來(lái)說(shuō):“要訓(xùn)練一個(gè)高性能的端到端模型,對(duì)數(shù)據(jù)的要求可能是幾個(gè)量級(jí)的提升,這是自動(dòng)駕駛行業(yè)都會(huì)面臨的挑戰(zhàn)?!?/p>

由于端到端自動(dòng)駕駛模型很少用人工進(jìn)行規(guī)控,從而就讓用于訓(xùn)練的數(shù)據(jù)變成了“指導(dǎo)”端到端算法學(xué)習(xí)的“老師”,對(duì)于數(shù)據(jù)質(zhì)量的要求自然會(huì)大幅提升。

數(shù)據(jù)不僅要有場(chǎng)景的全流程演繹,同時(shí)還需要是具備人類(lèi)老司機(jī)級(jí)別的駕駛行為和多元的案例集合,從而讓每個(gè)素材都有屬于各自的know-how。為此,需要在海量的數(shù)據(jù)中挖掘真正有用的素材。

就比如前文提到的特斯拉幾萬(wàn)小時(shí)的視頻素材,就是他們從超過(guò)20億英里的FSD里程數(shù)據(jù)中挖掘出來(lái)的。而此前特斯拉FSD V12.4.2版本被推遲推送,其原因也是因?yàn)榻o算法“投喂”太多不合適的素材,以至于需要重新調(diào)整權(quán)重后重新訓(xùn)練。

數(shù)據(jù)之外,隨著端到端模型的走紅,也對(duì)算力的需求越來(lái)越高。

按照公開(kāi)數(shù)據(jù)顯示,截至去年8月,特斯拉已經(jīng)能提供10000 PFLOPS規(guī)模的算力。此外特斯拉還在建設(shè)Giga Texas數(shù)據(jù)中心,到今年10月預(yù)計(jì)其算力可提升至100000 PFLOPS。

國(guó)內(nèi)智駕行業(yè)也早早打響了算力的“軍備競(jìng)賽”。比如在2022年,小鵬汽車(chē)就聯(lián)合阿里云智能計(jì)算平臺(tái)建設(shè)了“扶搖”自動(dòng)駕駛智算中心,算力可達(dá)600 PFLOOS;基于他們?cè)谀甓人懔τ?xùn)練費(fèi)用方面超7億元的投入,這一算力目前應(yīng)該也有明顯增長(zhǎng)。

再到去年,理想汽車(chē)也基于火山引擎建立了自己的智算中心,算力至少能達(dá)到750 PFLOPS。

與理想和小鵬相似的是,蔚來(lái)找來(lái)了騰訊做“外援”,合作建立智算中心,雖然截至目前并未公布算力的情況,但就公開(kāi)的數(shù)據(jù)顯示,蔚來(lái)智能駕駛端云算力本月新增20.56 EOPS,目前總算力已達(dá)287.1 EOPS。

車(chē)企卷起來(lái)的同時(shí),華為、商湯絕影和毫末智行等智駕供應(yīng)商們也不甘示弱。

以華為的云智算中心為例,根據(jù)公開(kāi)數(shù)據(jù)其算力已經(jīng)達(dá)到了3500 PFLOPS,訓(xùn)練數(shù)據(jù)量為日行3000萬(wàn)公里;商湯大裝置布局的全國(guó)一體化智算網(wǎng)絡(luò),總算力規(guī)??蛇_(dá)到12000 PFLOPS,而到了今年底算力預(yù)計(jì)可提升至18000 PFLOPS。

毫末智行,也在2023年1月與火山引擎合作建設(shè)了名為“雪湖·綠洲”的智算中心,其算力可達(dá)到670 PFLOPS。而在這之前的2022年,毫末就開(kāi)始對(duì)端到端模型進(jìn)行研發(fā)和探索,基于雪湖·綠洲,毫末也在加快端到端的研發(fā)進(jìn)度。

毫末智行“雪湖·綠洲”,圖源毫末智行官方公眾號(hào)

只不過(guò),相比于特斯拉的算力規(guī)模,“蔚小理”、以及華為、毫末等國(guó)內(nèi)企業(yè)的算力還是有較大的差距。

不能否認(rèn),算力與數(shù)據(jù)的制約,也在很大程度上影響算法的迭代,再加上被視為“引路人”的特斯拉,或許意識(shí)到了被競(jìng)爭(zhēng)對(duì)手“逐幀研究”智駕算法后,叫停了AI Day的舉辦,從而讓它身后的一眾企業(yè)沒(méi)了“摸石頭過(guò)河”的機(jī)會(huì)。

以至于,縱觀目前的智能駕駛行業(yè),在端到端研發(fā)方面,雖然呈現(xiàn)出百花齊放的熱鬧景象,但行業(yè)面對(duì)的共同問(wèn)題,也無(wú)法在短期內(nèi)找到解法,就比如說(shuō)行業(yè)內(nèi)老生常談的可解釋性問(wèn)題。

由于端到端模型沒(méi)有模塊間可表達(dá)的中間結(jié)果,以至于人類(lèi)算法工程師無(wú)法確認(rèn)各個(gè)模塊的確定性和安全性,從而增加了整體算法發(fā)生錯(cuò)誤的風(fēng)險(xiǎn)和參與調(diào)試的難度,這也是行業(yè)內(nèi)常說(shuō)的“黑箱”問(wèn)題。

看到這一問(wèn)題后,行業(yè)中有些企業(yè)也試圖解決。就比如英國(guó)自動(dòng)駕駛企業(yè)Wayve.AI,就嘗試把VLAM(視覺(jué)語(yǔ)言動(dòng)作模型)引入多模態(tài)大模型中,讓車(chē)輛LINGO系列模型與車(chē)內(nèi)乘客文字對(duì)話,以便提升整體算法的可解釋性。

毫末智行,在面對(duì)這一問(wèn)題時(shí),與Wayve有著相似的思路。他們引入LLM(大語(yǔ)言模型),并與其交互和提建議等措施,來(lái)提升算法對(duì)世界的理解和可解釋性。但毫末智行CEO顧維灝也認(rèn)為,LLM存在較為嚴(yán)重的幻覺(jué),來(lái)指導(dǎo)自動(dòng)駕駛算法有較大的風(fēng)險(xiǎn)。

除了可解釋性問(wèn)題,測(cè)試方法不成熟、車(chē)載芯片算力不足和企業(yè)組織投入分配等方面,也是構(gòu)建端到端智駕模型過(guò)程中不可忽略的諸多問(wèn)題。

基于以上這些潛在水面以下的問(wèn)題,也讓目前火熱的端到端技術(shù)走向了矛盾的處境中,智能駕駛行業(yè)對(duì)其的認(rèn)識(shí)也有了不同的分歧和思考。

03 智能駕駛行業(yè)的終局在哪里?

對(duì)于端到端的認(rèn)知,智駕行業(yè)并不像看上去的那樣“團(tuán)結(jié)”。

按照辰韜資本發(fā)布的《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》顯示,在他們對(duì)智駕行業(yè)進(jìn)行一系列調(diào)研后發(fā)現(xiàn),行業(yè)對(duì)于端到端大模型的態(tài)度存在不同的陣營(yíng)。

比如在對(duì)智駕行業(yè)技術(shù)終局的預(yù)判方面,有46%的比例認(rèn)為是端到端是智駕行業(yè)技術(shù)的終局方案;還有50%的比例則認(rèn)為端到端只是未來(lái)眾多方案中的其中之一,以及4%比例的受訪者認(rèn)為端到端僅是過(guò)渡方案。

圖源《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》

這一數(shù)據(jù)的分布,也印證了上文的分析,由于端到端技術(shù)的正式發(fā)展才剛剛起步,還有諸多的問(wèn)題缺乏討論和解決落地,以至于對(duì)于智駕行業(yè)技術(shù)終局的發(fā)展方向難以達(dá)成共識(shí)也在情理之中。

那么,對(duì)于智能駕駛行業(yè)來(lái)說(shuō),技術(shù)的終局到底在哪里?

對(duì)于智能駕駛行業(yè)的發(fā)展過(guò)程,在地平線創(chuàng)始人兼CEO余凱看來(lái)主要有三大時(shí)代——可用(1.0時(shí)代)、好用(2.0時(shí)代)和愛(ài)用(3.0時(shí)代)。會(huì)有這三個(gè)時(shí)代,也是因?yàn)橹悄荞{駛功能的核心還是需要回歸到消費(fèi)者的本質(zhì),換句話說(shuō)智能駕駛最終是消費(fèi)者在使用的。

在飛說(shuō)智行看來(lái),目前智能駕駛行業(yè)已成功邁過(guò)可用的1.0時(shí)代,正無(wú)限接近好用的2.0時(shí)代,距離愛(ài)用的3.0時(shí)代還有較大的距離。

按照蓋世汽車(chē)研究院統(tǒng)計(jì)的數(shù)據(jù)顯示,2024年初國(guó)內(nèi)L2及以上等級(jí)智駕系統(tǒng)的滲透率為42.4%,但根據(jù)高工智能研究院的數(shù)據(jù)顯示,目前高階智駕的滲透率還不到10%,這也意味著消費(fèi)者對(duì)于高階智駕的接受程度還不足。

飛說(shuō)智行此前向一些智能汽車(chē)車(chē)主詢問(wèn)“會(huì)經(jīng)常開(kāi)啟使用車(chē)上的智能駕駛功能嗎?”得到的答復(fù)大多數(shù)是不經(jīng)常使用,即便很多主流車(chē)型已經(jīng)具備城市NOA,也有很多車(chē)主表示只會(huì)在高速和高架上使用,到了城區(qū)后還是會(huì)自己開(kāi),主要原因還是不好用。

“相比于高速和高架,城區(qū)道路不確定性的情況會(huì)更多,如果開(kāi)啟城市NOA后,不僅要時(shí)刻緊盯車(chē)輛前方的路況,做好隨時(shí)接管的準(zhǔn)備;同時(shí)還得無(wú)時(shí)無(wú)刻去判斷車(chē)輛算法是否對(duì)路況做出正確的判斷和處理,真不如自己開(kāi)的輕松。”智能汽車(chē)車(chē)主汪涵這樣對(duì)飛說(shuō)智行表示。

在城區(qū)里開(kāi)啟智能駕駛功能,開(kāi)100公里、300公里、500公里接管一次,消費(fèi)者的體驗(yàn)完全不一樣。正因這樣,目前各家車(chē)企和自動(dòng)駕駛企業(yè)對(duì)于算法的打磨和迭代,都是為了能邁過(guò)好用這一門(mén)檻。

而對(duì)于愛(ài)用的標(biāo)準(zhǔn),在余凱看來(lái)需要系統(tǒng)提供擬人化的駕駛體驗(yàn),不僅保證行駛的物理安全,還要給駕駛員提供心理的安全感。要做到這一目標(biāo),還有較大的距離。

除了消費(fèi)者這端之外,人工智能和大模型本身的涌現(xiàn)能力,也會(huì)成為決定智能駕駛終局走向的重要因素。

2022年,在一篇名為《Emergent Abilities of Large Language Models》的論文中,研究人員們把LLM在一段時(shí)間內(nèi)能力的突然躍升現(xiàn)象稱之為“Emergent”(涌現(xiàn))。

這一術(shù)語(yǔ)很快被廣泛用于人工智能和大模型經(jīng)過(guò)訓(xùn)練后,出現(xiàn)的出乎意料的新行為和功能,且這些行為可能與初始訓(xùn)練目標(biāo)無(wú)關(guān)。從最早的AlphaGo、到之后的ChatGPT和GPT-4,再到如今的Sora,都被行業(yè)視為人工智能涌現(xiàn)能力的體現(xiàn)。

“有理由相信,隨著人工智能和大模型技術(shù)在之后被更多應(yīng)用到智能駕駛算法的構(gòu)建中,這樣的涌現(xiàn)現(xiàn)象也會(huì)繼續(xù)出現(xiàn),帶領(lǐng)智能駕駛和自動(dòng)駕駛技術(shù)實(shí)現(xiàn)進(jìn)化和迭代?!眹?guó)內(nèi)頭部智能駕駛企業(yè)研發(fā)負(fù)責(zé)人孫濤這樣對(duì)飛說(shuō)智行表示。

基于以上這些分析,在飛說(shuō)智行看來(lái),并不完美的端到端技術(shù)屬于現(xiàn)階段智能駕駛行業(yè)的最優(yōu)解,但隨著眾多車(chē)企、自動(dòng)駕駛企業(yè)以及上下游產(chǎn)業(yè)鏈對(duì)于技術(shù)的探索,未來(lái)或許還會(huì)誕生更加全面且完善的算法和技術(shù),由此加速整個(gè)行業(yè)終局的到來(lái)。

雖然智能駕駛行業(yè)技術(shù)終局的到來(lái)還很遙遠(yuǎn),就像日出前漫長(zhǎng)的黑夜一樣,但對(duì)于該行業(yè)的從業(yè)者們來(lái)說(shuō),也許并不為此擔(dān)憂或者恐懼,因?yàn)樗麄兿嘈胚@一天總會(huì)到來(lái)。

正像劉慈欣在《三體—黑暗森林》結(jié)尾寫(xiě)的那樣:“太陽(yáng)總會(huì)升起來(lái)的”。

(應(yīng)受訪者要求,文中汪涵和孫濤為化名)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

從BEV感知到端到端模型,智駕行業(yè)“追熱詞”能搶到技術(shù)終局優(yōu)勢(shì)嗎?

端到端雖不完美,但是現(xiàn)階段行業(yè)最優(yōu)解。

文|飛說(shuō)智行

智能駕駛行業(yè)的發(fā)展有多卷?

要回答這個(gè)問(wèn)題很簡(jiǎn)單,看看車(chē)企、自動(dòng)駕駛公司和智駕方案供應(yīng)商們追逐的技術(shù)焦點(diǎn)變換得有多快就行了。

去年下半年開(kāi)始,蔚來(lái)、小鵬、理想和比亞迪等車(chē)企們向智能駕駛領(lǐng)域快速地奔跑起來(lái),紛紛提出了自身“輕地圖、重感知”的城市NOA落地時(shí)間表,甚至華為和小鵬等企業(yè)還更進(jìn)一步,想要做到真正無(wú)圖的城市NOA。

一時(shí)間,BEV+Transformer和OCC占用網(wǎng)絡(luò)等一系列的技術(shù)名詞,就成為了整個(gè)智能駕駛行業(yè)的熱詞,推進(jìn)落地開(kāi)城和直播智駕過(guò)程也成為了眾多車(chē)企展現(xiàn)自身技術(shù)優(yōu)勢(shì)的最直接方式。

殊不知,這樣卷了半年時(shí)間,從今年初開(kāi)始,由于受到了特斯拉的啟發(fā),整個(gè)智能駕駛行業(yè)的風(fēng)向快速轉(zhuǎn)變——齊刷刷盯向了端到端技術(shù)(End-to-End)。

端到端自動(dòng)駕駛系統(tǒng)圖示,圖源毫末智行官方公眾號(hào)

最近,理想汽車(chē)舉辦了智能駕駛夏季發(fā)布會(huì),首次公開(kāi)展示了其端到端自動(dòng)駕駛技術(shù)架構(gòu),該架構(gòu)主要由端到端模型、VLM視覺(jué)語(yǔ)言模型、世界模型三部分共同構(gòu)成,也就是其CEO李想此前提到的“系統(tǒng)1”和“系統(tǒng)2”,他們也宣布這套系統(tǒng)是部署到車(chē)端的智駕方案。

蔚來(lái)和小鵬,自然也沒(méi)有慢下腳步。前者近期在內(nèi)部單獨(dú)設(shè)立了一個(gè)大模型部門(mén),專(zhuān)門(mén)負(fù)責(zé)端到端系統(tǒng)的研發(fā)工作,蔚來(lái)方面也對(duì)飛說(shuō)智行表示,下半年在智駕方面他們會(huì)有很多動(dòng)作。

小鵬汽車(chē)在今年5月也發(fā)布了量產(chǎn)上車(chē)的端到端大模型——由神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語(yǔ)言模型XBrain構(gòu)成,其掌門(mén)人何小鵬也宣布小鵬汽車(chē)到2025年將在國(guó)內(nèi)實(shí)現(xiàn)L4級(jí)別智駕體驗(yàn)。

除了“蔚小理”之外,長(zhǎng)城汽車(chē)、比亞迪和廣汽等國(guó)內(nèi)自主車(chē)企,商湯絕影、華為、騰訊、百度Apollo和元戎啟行等科技企業(yè),也在今年紛紛公布了各自在端到端領(lǐng)域的計(jì)劃和落地進(jìn)展,端到端技術(shù)由此就成為了整個(gè)行業(yè)競(jìng)逐的關(guān)鍵技術(shù)標(biāo)的。

從追求BEV+Transformer,到競(jìng)逐端到端技術(shù)方案,這屬于企業(yè)戰(zhàn)略層面的變化。但與此同時(shí),由于上一代方案還未很好落地、下一代方案就來(lái)了的現(xiàn)實(shí),如何快速變換研發(fā)策略,也考驗(yàn)著每一家企業(yè)的智駕研發(fā)團(tuán)隊(duì)們。

以上這些企業(yè)之所以會(huì)紛紛競(jìng)逐端到端技術(shù),也是因?yàn)檫@一技術(shù)被行業(yè)大多數(shù)人視為是突破目前智駕領(lǐng)域天花板的有效方法,誰(shuí)能搶到這一技術(shù)的高地,誰(shuí)就能取得較大的行業(yè)優(yōu)勢(shì)。

只不過(guò),也有人認(rèn)為端到端技術(shù)并不是智駕行業(yè)未來(lái)的唯一路徑,那么端到端是智能駕駛行業(yè)的終局嗎?智能駕駛行業(yè)競(jìng)逐的終點(diǎn)到底在哪里?在目前還未看清前路的行業(yè)背景下,這些問(wèn)題值得討論。

01 摸到“天花板”后,行業(yè)奔向端到端

技術(shù)的變革,往往是由問(wèn)題推動(dòng)的。

一般而言,實(shí)現(xiàn)高階智駕,要基于智駕算法為基礎(chǔ)。前些年,行業(yè)普遍采用的是傳統(tǒng)自動(dòng)駕駛算法方案,即感知-決策-規(guī)劃-控制的多模塊算法,這套算法雖然在面對(duì)簡(jiǎn)單駕駛場(chǎng)景上表現(xiàn)較好,但在處理復(fù)雜的高階智駕場(chǎng)景時(shí),就會(huì)出現(xiàn)較多的瓶頸。

首先是在開(kāi)城速度和體驗(yàn)上,由于多模塊智駕算法架構(gòu)是基于人類(lèi)編寫(xiě)的代碼和規(guī)則驅(qū)動(dòng)的,在遇到不熟悉的Corner cases時(shí)會(huì)出現(xiàn)明顯的頓挫感,同時(shí)在泛化性方面也有明顯不足,導(dǎo)致拓展新城市時(shí)效率不足。

另外,雖然很多車(chē)企喊出了輕圖或者無(wú)圖的口號(hào),但在智駕系統(tǒng)運(yùn)行時(shí)依舊會(huì)或多或少利用到高精地圖資源;還有在算法訓(xùn)練方面,模塊間都需要人工規(guī)控和訓(xùn)練的干預(yù),這些都增加了車(chē)企的成本壓力。

這樣的技術(shù)問(wèn)題,一時(shí)間成為了整個(gè)智駕行業(yè)共同面對(duì)的困境。但與此同時(shí),一篇論文的出現(xiàn),為整個(gè)行業(yè)帶來(lái)了啟示。

去年6月,一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)的論文出現(xiàn)在行業(yè)面前,該論文因?yàn)樘岢隽烁兄獩Q策一體化的端到端自動(dòng)駕駛通用大模型UniAD,獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì)CVPR最佳論文獎(jiǎng)。

UniAD算法架構(gòu)圖,圖源《Planning-oriented Autonomous Driving》

這一端到端算法模型,首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下,把全棧的自動(dòng)駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中,簡(jiǎn)言之,就可以讓算法實(shí)現(xiàn)從感知輸入直接輸出路徑?jīng)Q策的過(guò)程。

使用端到端技術(shù)來(lái)構(gòu)建智能駕駛算法的直接好處,可以減少傳統(tǒng)模塊化算法信息傳遞時(shí)的噪音和減損,來(lái)提升整體算法運(yùn)行的效率。此外,由于端到端算法無(wú)需人工編寫(xiě)冗余的規(guī)則和代碼,大大降低了人工成本的同時(shí),神經(jīng)網(wǎng)絡(luò)算法還具備較強(qiáng)的泛化能力,可以提升智駕系統(tǒng)落地和開(kāi)城的效率。

學(xué)術(shù)研究帶來(lái)啟示后,產(chǎn)業(yè)落地快速跟進(jìn)。

特斯拉成為率先吃端到端這只“螃蟹”的車(chē)企之一。去年8月,特斯拉FSD V12 版本問(wèn)世,按照當(dāng)時(shí)其官方的介紹,這一版本可以實(shí)現(xiàn)“一端輸入攝像頭等傳感器獲得的數(shù)據(jù),另一端直接輸出車(chē)該怎么開(kāi)?!庇纱诉@一版本也被國(guó)內(nèi)一些媒體同行宣傳為“端到端技術(shù)正式上車(chē)”。

這之后,一邊是埃隆·馬斯克通過(guò)社交媒體表示“FSD V12通過(guò)神經(jīng)網(wǎng)絡(luò),人工編程的 C++控制代碼由30萬(wàn)行縮減到了3000行”來(lái)體現(xiàn)端到端技術(shù)的優(yōu)勢(shì);另一邊,隨著今年2月FSD V12在美國(guó)開(kāi)啟推送后,其絲滑且流暢的路測(cè)視頻也讓整個(gè)智駕行業(yè)為之震動(dòng)。

特斯拉領(lǐng)頭后,“蔚小理”等眾多車(chē)企們迅速開(kāi)始追趕。

去年12月,理想汽車(chē)宣布完成了OTA5.0更新,按照其官方介紹,基于端到端架構(gòu),實(shí)現(xiàn)了對(duì)BEV大模型、MPC模型預(yù)測(cè)控制以及時(shí)空聯(lián)合規(guī)劃等能力的整合,同時(shí)他們還使用了OCC占用網(wǎng)絡(luò)和神經(jīng)先驗(yàn)網(wǎng)絡(luò)NPN作為架構(gòu)補(bǔ)充。

再到上周,理想系統(tǒng)化地展示了他們?cè)诙说蕉俗詣?dòng)駕駛算法架構(gòu),并且提出了端到端“4D One Model”架構(gòu),輸入傳感器信息,輸出行駛軌跡。但需要注意的是,這一架構(gòu)思路類(lèi)似于上文提到的端到端自動(dòng)駕駛通用大模型UniAD架構(gòu)。

理想汽車(chē)4D One Model架構(gòu)圖,圖源理想汽車(chē)

以智能化為標(biāo)簽的小鵬汽車(chē),在今年1月全國(guó)智駕啟動(dòng)發(fā)布會(huì)也宣布端到端大模型會(huì)在未來(lái)全面上車(chē)。四個(gè)月后,他們就發(fā)布了量產(chǎn)上車(chē)的端到端大模型——神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語(yǔ)言模型XBrain。

在小鵬汽車(chē)智能駕駛技術(shù)負(fù)責(zé)人李力耘看來(lái),“XBrain、XNet、XPlanner,既有聯(lián)系又有分工,能夠非常好地提升AI智駕能力上限?!?/p>

小鵬汽車(chē)端到端大模型架構(gòu)圖,圖源小鵬汽車(chē)官網(wǎng)

對(duì)于蔚來(lái)來(lái)說(shuō),在端到端大模型方面采用的是漸進(jìn)式的路線。在他們看來(lái)做端到端大模型的前提是要讓智駕各功能模塊都已形成模型化,具備足夠的性能和工程效率。

簡(jiǎn)單說(shuō)就像是先有每塊功能化的拼圖,然后組裝為整張端到端的完整拼圖,不然就像蔚來(lái)智能駕駛研發(fā)副總裁任少卿認(rèn)為的那樣“否則端到端就是個(gè)毒藥?!?/p>

這兩天,蔚來(lái)推送了Banyan 2.6.5版本,其中包括端到端的AEB功能,可以讓AEB避險(xiǎn)能力顯著增強(qiáng)。隨著今年6月蔚來(lái)內(nèi)部智駕團(tuán)隊(duì)架構(gòu)完成調(diào)整后,蔚來(lái)也成為了率先量產(chǎn)端到端智駕功能的車(chē)企。

除了特斯拉,“蔚小理”之外,其他車(chē)企也加到這場(chǎng)端到端大模型的競(jìng)逐賽中。

比如長(zhǎng)城汽車(chē)就推出了名為“SEE”的端到端智駕大模型,從前段時(shí)間的重慶全場(chǎng)景NOA路測(cè)效果來(lái)看,實(shí)現(xiàn)復(fù)雜路段絲滑且流暢通行的同時(shí),還能兼具安全和效率。

同為自主車(chē)企的比亞迪,也在最近宣布已完成端到端無(wú)圖方案的開(kāi)發(fā),目標(biāo)要做到智駕第一梯隊(duì);長(zhǎng)安汽車(chē),也提出了將BAV感知和LLM(大語(yǔ)言模型)端到端融合的構(gòu)想。

車(chē)企之外,諸多自動(dòng)駕駛企業(yè)和科技大廠也在紛紛擁抱端到端技術(shù)。商湯絕影就在今年的北京車(chē)展上,展示了UniAD架構(gòu)的實(shí)車(chē)上路成果,僅靠7顆攝像頭組成的視覺(jué)感知,讓車(chē)輛實(shí)現(xiàn)在城區(qū)乃至鄉(xiāng)村道路環(huán)境中無(wú)圖高階智駕的能力。

商湯絕影UniAD端到端解決方案,圖源商湯絕影官方公眾號(hào)

作為國(guó)內(nèi)自動(dòng)駕駛第一梯隊(duì)企業(yè)的小馬智行,在去年8月就把感知、預(yù)測(cè)、規(guī)控三大傳統(tǒng)模塊打通,統(tǒng)一成端到端自動(dòng)駕駛模型,目前已同步搭載到L4級(jí)自動(dòng)駕駛出租車(chē)和L2級(jí)輔助駕駛乘用車(chē)。

騰訊、百度和華為、也沒(méi)有慢下來(lái)。騰訊在今年4月發(fā)布了行業(yè)首個(gè)汽車(chē)行業(yè)大模型,并設(shè)立了“專(zhuān)云專(zhuān)用”的智能汽車(chē)云雙專(zhuān)區(qū),為自動(dòng)駕駛開(kāi)發(fā)創(chuàng)造了一個(gè)端到端、全程合規(guī)的數(shù)據(jù)閉環(huán)服務(wù)。

同在4月,百度Apollo發(fā)布了支持L4級(jí)自動(dòng)駕駛的端到端大模型ApolloADFM,以聯(lián)合訓(xùn)練的方式實(shí)現(xiàn)端到端無(wú)人駕駛。按照最新的消息,蘿卜快跑第六代無(wú)人車(chē)已經(jīng)全面應(yīng)用了ApolloADFM大模型+硬件產(chǎn)品+安全架構(gòu)的方案。

華為同期也發(fā)布了基于端到端大模型的ASD3.0智駕系統(tǒng)。感知部分采用GOD(General Object Detection,通用障礙物識(shí)別)的大感知網(wǎng)絡(luò),決策規(guī)劃部分采用PDP(Prediction-DecisionPlanning, 預(yù)測(cè)決策規(guī)控)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)決策和規(guī)劃一張網(wǎng)。

就在整個(gè)智能駕駛行業(yè)快速奔向端到端技術(shù)的同時(shí),對(duì)于端到端技術(shù)的能力和邊界的思考也在進(jìn)行著。

02 端到端技術(shù)的“冰山問(wèn)題”

冰山,往往很多人只看到了20%的水面以上部分,而水面之下80%的部分卻很容易被忽略。對(duì)于端到端技術(shù)來(lái)說(shuō),同樣存在這樣的“冰山問(wèn)題”。

就像上文提到的可以降低傳統(tǒng)智駕算法的模塊間信息損減、提升信息的傳輸效率,以及降低算法訓(xùn)練成本和提升泛化效果等等,都屬于端到端技術(shù)對(duì)于智能駕駛算法構(gòu)建的優(yōu)勢(shì),也就是大多數(shù)人看到的那20%部分。

但這些端到端的好處,無(wú)法做到瑜能掩瑕,畢竟端到端技術(shù)的不足和缺陷,也就是藏在“水面”以下的80%,是真實(shí)存在的。

眾所周知,要訓(xùn)練端到端智能駕駛,算力、算法和數(shù)據(jù)三大要素缺一不可。其中,獲取數(shù)據(jù)對(duì)于擁有大規(guī)模量產(chǎn)車(chē)型的車(chē)企和擁有自動(dòng)駕駛車(chē)隊(duì)的自動(dòng)駕駛企業(yè)來(lái)說(shuō),看似并不是什么難事。

而實(shí)際情況是,要訓(xùn)練端到端算法,需要海量且質(zhì)量較高的數(shù)據(jù)才行。按照馬斯克在去年透露的信息,他們?cè)谟?xùn)練FSD時(shí)一般會(huì)用到上千萬(wàn)個(gè)視頻素材,假使每個(gè)視頻以30秒來(lái)計(jì)算,訓(xùn)練端到端模型的數(shù)據(jù)起碼需要幾萬(wàn)小時(shí)的視頻素材。

全球最大的自動(dòng)駕駛公開(kāi)數(shù)據(jù)集Nuplan此前發(fā)布的數(shù)據(jù),他們的數(shù)據(jù)規(guī)模達(dá)到了1200小時(shí),這些數(shù)據(jù)還不是為端到端自動(dòng)駕駛所準(zhǔn)備的。

按照小馬智行CEO樓天城的話來(lái)說(shuō):“要訓(xùn)練一個(gè)高性能的端到端模型,對(duì)數(shù)據(jù)的要求可能是幾個(gè)量級(jí)的提升,這是自動(dòng)駕駛行業(yè)都會(huì)面臨的挑戰(zhàn)?!?/p>

由于端到端自動(dòng)駕駛模型很少用人工進(jìn)行規(guī)控,從而就讓用于訓(xùn)練的數(shù)據(jù)變成了“指導(dǎo)”端到端算法學(xué)習(xí)的“老師”,對(duì)于數(shù)據(jù)質(zhì)量的要求自然會(huì)大幅提升。

數(shù)據(jù)不僅要有場(chǎng)景的全流程演繹,同時(shí)還需要是具備人類(lèi)老司機(jī)級(jí)別的駕駛行為和多元的案例集合,從而讓每個(gè)素材都有屬于各自的know-how。為此,需要在海量的數(shù)據(jù)中挖掘真正有用的素材。

就比如前文提到的特斯拉幾萬(wàn)小時(shí)的視頻素材,就是他們從超過(guò)20億英里的FSD里程數(shù)據(jù)中挖掘出來(lái)的。而此前特斯拉FSD V12.4.2版本被推遲推送,其原因也是因?yàn)榻o算法“投喂”太多不合適的素材,以至于需要重新調(diào)整權(quán)重后重新訓(xùn)練。

數(shù)據(jù)之外,隨著端到端模型的走紅,也對(duì)算力的需求越來(lái)越高。

按照公開(kāi)數(shù)據(jù)顯示,截至去年8月,特斯拉已經(jīng)能提供10000 PFLOPS規(guī)模的算力。此外特斯拉還在建設(shè)Giga Texas數(shù)據(jù)中心,到今年10月預(yù)計(jì)其算力可提升至100000 PFLOPS。

國(guó)內(nèi)智駕行業(yè)也早早打響了算力的“軍備競(jìng)賽”。比如在2022年,小鵬汽車(chē)就聯(lián)合阿里云智能計(jì)算平臺(tái)建設(shè)了“扶搖”自動(dòng)駕駛智算中心,算力可達(dá)600 PFLOOS;基于他們?cè)谀甓人懔τ?xùn)練費(fèi)用方面超7億元的投入,這一算力目前應(yīng)該也有明顯增長(zhǎng)。

再到去年,理想汽車(chē)也基于火山引擎建立了自己的智算中心,算力至少能達(dá)到750 PFLOPS。

與理想和小鵬相似的是,蔚來(lái)找來(lái)了騰訊做“外援”,合作建立智算中心,雖然截至目前并未公布算力的情況,但就公開(kāi)的數(shù)據(jù)顯示,蔚來(lái)智能駕駛端云算力本月新增20.56 EOPS,目前總算力已達(dá)287.1 EOPS。

車(chē)企卷起來(lái)的同時(shí),華為、商湯絕影和毫末智行等智駕供應(yīng)商們也不甘示弱。

以華為的云智算中心為例,根據(jù)公開(kāi)數(shù)據(jù)其算力已經(jīng)達(dá)到了3500 PFLOPS,訓(xùn)練數(shù)據(jù)量為日行3000萬(wàn)公里;商湯大裝置布局的全國(guó)一體化智算網(wǎng)絡(luò),總算力規(guī)??蛇_(dá)到12000 PFLOPS,而到了今年底算力預(yù)計(jì)可提升至18000 PFLOPS。

毫末智行,也在2023年1月與火山引擎合作建設(shè)了名為“雪湖·綠洲”的智算中心,其算力可達(dá)到670 PFLOPS。而在這之前的2022年,毫末就開(kāi)始對(duì)端到端模型進(jìn)行研發(fā)和探索,基于雪湖·綠洲,毫末也在加快端到端的研發(fā)進(jìn)度。

毫末智行“雪湖·綠洲”,圖源毫末智行官方公眾號(hào)

只不過(guò),相比于特斯拉的算力規(guī)模,“蔚小理”、以及華為、毫末等國(guó)內(nèi)企業(yè)的算力還是有較大的差距。

不能否認(rèn),算力與數(shù)據(jù)的制約,也在很大程度上影響算法的迭代,再加上被視為“引路人”的特斯拉,或許意識(shí)到了被競(jìng)爭(zhēng)對(duì)手“逐幀研究”智駕算法后,叫停了AI Day的舉辦,從而讓它身后的一眾企業(yè)沒(méi)了“摸石頭過(guò)河”的機(jī)會(huì)。

以至于,縱觀目前的智能駕駛行業(yè),在端到端研發(fā)方面,雖然呈現(xiàn)出百花齊放的熱鬧景象,但行業(yè)面對(duì)的共同問(wèn)題,也無(wú)法在短期內(nèi)找到解法,就比如說(shuō)行業(yè)內(nèi)老生常談的可解釋性問(wèn)題。

由于端到端模型沒(méi)有模塊間可表達(dá)的中間結(jié)果,以至于人類(lèi)算法工程師無(wú)法確認(rèn)各個(gè)模塊的確定性和安全性,從而增加了整體算法發(fā)生錯(cuò)誤的風(fēng)險(xiǎn)和參與調(diào)試的難度,這也是行業(yè)內(nèi)常說(shuō)的“黑箱”問(wèn)題。

看到這一問(wèn)題后,行業(yè)中有些企業(yè)也試圖解決。就比如英國(guó)自動(dòng)駕駛企業(yè)Wayve.AI,就嘗試把VLAM(視覺(jué)語(yǔ)言動(dòng)作模型)引入多模態(tài)大模型中,讓車(chē)輛LINGO系列模型與車(chē)內(nèi)乘客文字對(duì)話,以便提升整體算法的可解釋性。

毫末智行,在面對(duì)這一問(wèn)題時(shí),與Wayve有著相似的思路。他們引入LLM(大語(yǔ)言模型),并與其交互和提建議等措施,來(lái)提升算法對(duì)世界的理解和可解釋性。但毫末智行CEO顧維灝也認(rèn)為,LLM存在較為嚴(yán)重的幻覺(jué),來(lái)指導(dǎo)自動(dòng)駕駛算法有較大的風(fēng)險(xiǎn)。

除了可解釋性問(wèn)題,測(cè)試方法不成熟、車(chē)載芯片算力不足和企業(yè)組織投入分配等方面,也是構(gòu)建端到端智駕模型過(guò)程中不可忽略的諸多問(wèn)題。

基于以上這些潛在水面以下的問(wèn)題,也讓目前火熱的端到端技術(shù)走向了矛盾的處境中,智能駕駛行業(yè)對(duì)其的認(rèn)識(shí)也有了不同的分歧和思考。

03 智能駕駛行業(yè)的終局在哪里?

對(duì)于端到端的認(rèn)知,智駕行業(yè)并不像看上去的那樣“團(tuán)結(jié)”。

按照辰韜資本發(fā)布的《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》顯示,在他們對(duì)智駕行業(yè)進(jìn)行一系列調(diào)研后發(fā)現(xiàn),行業(yè)對(duì)于端到端大模型的態(tài)度存在不同的陣營(yíng)。

比如在對(duì)智駕行業(yè)技術(shù)終局的預(yù)判方面,有46%的比例認(rèn)為是端到端是智駕行業(yè)技術(shù)的終局方案;還有50%的比例則認(rèn)為端到端只是未來(lái)眾多方案中的其中之一,以及4%比例的受訪者認(rèn)為端到端僅是過(guò)渡方案。

圖源《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》

這一數(shù)據(jù)的分布,也印證了上文的分析,由于端到端技術(shù)的正式發(fā)展才剛剛起步,還有諸多的問(wèn)題缺乏討論和解決落地,以至于對(duì)于智駕行業(yè)技術(shù)終局的發(fā)展方向難以達(dá)成共識(shí)也在情理之中。

那么,對(duì)于智能駕駛行業(yè)來(lái)說(shuō),技術(shù)的終局到底在哪里?

對(duì)于智能駕駛行業(yè)的發(fā)展過(guò)程,在地平線創(chuàng)始人兼CEO余凱看來(lái)主要有三大時(shí)代——可用(1.0時(shí)代)、好用(2.0時(shí)代)和愛(ài)用(3.0時(shí)代)。會(huì)有這三個(gè)時(shí)代,也是因?yàn)橹悄荞{駛功能的核心還是需要回歸到消費(fèi)者的本質(zhì),換句話說(shuō)智能駕駛最終是消費(fèi)者在使用的。

在飛說(shuō)智行看來(lái),目前智能駕駛行業(yè)已成功邁過(guò)可用的1.0時(shí)代,正無(wú)限接近好用的2.0時(shí)代,距離愛(ài)用的3.0時(shí)代還有較大的距離。

按照蓋世汽車(chē)研究院統(tǒng)計(jì)的數(shù)據(jù)顯示,2024年初國(guó)內(nèi)L2及以上等級(jí)智駕系統(tǒng)的滲透率為42.4%,但根據(jù)高工智能研究院的數(shù)據(jù)顯示,目前高階智駕的滲透率還不到10%,這也意味著消費(fèi)者對(duì)于高階智駕的接受程度還不足。

飛說(shuō)智行此前向一些智能汽車(chē)車(chē)主詢問(wèn)“會(huì)經(jīng)常開(kāi)啟使用車(chē)上的智能駕駛功能嗎?”得到的答復(fù)大多數(shù)是不經(jīng)常使用,即便很多主流車(chē)型已經(jīng)具備城市NOA,也有很多車(chē)主表示只會(huì)在高速和高架上使用,到了城區(qū)后還是會(huì)自己開(kāi),主要原因還是不好用。

“相比于高速和高架,城區(qū)道路不確定性的情況會(huì)更多,如果開(kāi)啟城市NOA后,不僅要時(shí)刻緊盯車(chē)輛前方的路況,做好隨時(shí)接管的準(zhǔn)備;同時(shí)還得無(wú)時(shí)無(wú)刻去判斷車(chē)輛算法是否對(duì)路況做出正確的判斷和處理,真不如自己開(kāi)的輕松?!敝悄芷?chē)車(chē)主汪涵這樣對(duì)飛說(shuō)智行表示。

在城區(qū)里開(kāi)啟智能駕駛功能,開(kāi)100公里、300公里、500公里接管一次,消費(fèi)者的體驗(yàn)完全不一樣。正因這樣,目前各家車(chē)企和自動(dòng)駕駛企業(yè)對(duì)于算法的打磨和迭代,都是為了能邁過(guò)好用這一門(mén)檻。

而對(duì)于愛(ài)用的標(biāo)準(zhǔn),在余凱看來(lái)需要系統(tǒng)提供擬人化的駕駛體驗(yàn),不僅保證行駛的物理安全,還要給駕駛員提供心理的安全感。要做到這一目標(biāo),還有較大的距離。

除了消費(fèi)者這端之外,人工智能和大模型本身的涌現(xiàn)能力,也會(huì)成為決定智能駕駛終局走向的重要因素。

2022年,在一篇名為《Emergent Abilities of Large Language Models》的論文中,研究人員們把LLM在一段時(shí)間內(nèi)能力的突然躍升現(xiàn)象稱之為“Emergent”(涌現(xiàn))。

這一術(shù)語(yǔ)很快被廣泛用于人工智能和大模型經(jīng)過(guò)訓(xùn)練后,出現(xiàn)的出乎意料的新行為和功能,且這些行為可能與初始訓(xùn)練目標(biāo)無(wú)關(guān)。從最早的AlphaGo、到之后的ChatGPT和GPT-4,再到如今的Sora,都被行業(yè)視為人工智能涌現(xiàn)能力的體現(xiàn)。

“有理由相信,隨著人工智能和大模型技術(shù)在之后被更多應(yīng)用到智能駕駛算法的構(gòu)建中,這樣的涌現(xiàn)現(xiàn)象也會(huì)繼續(xù)出現(xiàn),帶領(lǐng)智能駕駛和自動(dòng)駕駛技術(shù)實(shí)現(xiàn)進(jìn)化和迭代?!眹?guó)內(nèi)頭部智能駕駛企業(yè)研發(fā)負(fù)責(zé)人孫濤這樣對(duì)飛說(shuō)智行表示。

基于以上這些分析,在飛說(shuō)智行看來(lái),并不完美的端到端技術(shù)屬于現(xiàn)階段智能駕駛行業(yè)的最優(yōu)解,但隨著眾多車(chē)企、自動(dòng)駕駛企業(yè)以及上下游產(chǎn)業(yè)鏈對(duì)于技術(shù)的探索,未來(lái)或許還會(huì)誕生更加全面且完善的算法和技術(shù),由此加速整個(gè)行業(yè)終局的到來(lái)。

雖然智能駕駛行業(yè)技術(shù)終局的到來(lái)還很遙遠(yuǎn),就像日出前漫長(zhǎng)的黑夜一樣,但對(duì)于該行業(yè)的從業(yè)者們來(lái)說(shuō),也許并不為此擔(dān)憂或者恐懼,因?yàn)樗麄兿嘈胚@一天總會(huì)到來(lái)。

正像劉慈欣在《三體—黑暗森林》結(jié)尾寫(xiě)的那樣:“太陽(yáng)總會(huì)升起來(lái)的”。

(應(yīng)受訪者要求,文中汪涵和孫濤為化名)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。