文|硅谷101 泓君 陳茜
自動駕駛行業(yè)備受關(guān)注的前圖森聯(lián)合創(chuàng)始人侯曉迪,在《硅谷101》的訪談中,透露了他的最新動向,他已經(jīng)開始了新一次的創(chuàng)業(yè),依舊是自動駕駛卡車,新公司的名字叫做 Bot.Auto。
在《硅谷101》的訪談中,侯曉迪承認自動駕駛行業(yè)進入了低潮期,但這種低潮是由加息帶來的純資本問題,并預(yù)估在2026-2027年他的公司可以在特定場景下賺錢。
侯曉迪之前所在的圖森也是命途多舛:
作為全球自動駕駛第一股,圖森未來2021年4月在納斯達克上市,發(fā)行價是40美元,很快股價翻番,沖上70美元。但是圖森未來的高光沒有持續(xù)多久,就遇到了很多中資背景的企業(yè)在美國遇到的一系列你能想象的困難:
第一波的困難是在做空機構(gòu)與2022年美國加息的雙重背景下股價腰斬;
接下來又被美國的監(jiān)管機構(gòu)盯上,美國海外投資委員會CIFUS對圖森進行了持續(xù)的調(diào)查與監(jiān)管;
最后圖森經(jīng)歷了四輪管理權(quán)的更迭。
2022年3月,呂程離開公司, 2022 年6月,陳默離開董事會。侯曉迪作為僅剩的創(chuàng)始團隊與早期管理團隊的代表留在了公司和董事會上,接下來就是圖森美國的董事會強行通過投票把侯曉迪也給罷免了,使用的條款叫做 Terminate without cause(無理由終止合約)。至此,圖森未來可以說他們的創(chuàng)始團隊以及早期管理團隊全部出局。這是第二次權(quán)利的反轉(zhuǎn)。
第三次是10天之后,圖森的創(chuàng)始團隊與管理團隊侯曉迪、陳默、呂程三人用超級投票權(quán)重新奪回了公司,又換掉了之前的董事。但是代價就是,圖森重新回到陳默與呂程手中,侯曉迪被邊緣化,于次年辭去董事職位,徹底離開圖森。
所有的這些事情都發(fā)生在圖森上市以后的兩年內(nèi)。經(jīng)過美國監(jiān)管機構(gòu)的調(diào)查與管理權(quán)的輪番更替后,圖森未來的股價當(dāng)時已經(jīng)跌破了上市發(fā)行價的 90%。在2024年1月份,圖森發(fā)布公告說,公司正決定從納斯達克摘牌退市,并且會注銷普通股。這個時候圖森的股價只剩下 0.25 美元,距離上市時候的40美元可以說是只剩下了一個零頭。
在大國科技交鋒的風(fēng)口浪尖上,圖森未來的故事比tiktok更加跌宕起伏,也更加艱難。無論是自動駕駛還是大模型的更新熱點不斷。侯曉迪在訪談中也詳細解釋了為什么他實名反對馬斯克,以及他對大模型、世界模型、具身智能等諸多熱點話題的看法。以下是《硅谷101》與侯曉迪的對話。
01 我為什么實名反對馬斯克
《硅谷101》:為什么再次創(chuàng)業(yè)還是選了自動駕駛這個方向?
侯曉迪:因為看見所以相信。我在過去的七年中也看到了一些不變性,這是我最寶貴的財富,也是支持我做下一次事業(yè)的出發(fā)點。首先是技術(shù)管理的能力,更多的是行業(yè)里面的一些必然趨勢,這些必然趨勢讓我覺得無人駕駛一定可以做出來。
無人駕駛這件事,之前的問題就在于大家都在做一個騙錢的生意,但是我們現(xiàn)在要做一個賺錢的生意。大概在未來的三四年,也就是2026或者2027年,我覺得自動駕駛就可以實現(xiàn)商業(yè)化或者說就能開始在一些特定場景下賺錢了,真正的規(guī)?;矣X得應(yīng)該在2030年前后可以實現(xiàn)。
當(dāng)然了,這個時間節(jié)點是我和我們公司在一個理性樂觀的情況下給出的預(yù)估,但是對于整個行業(yè)而言,我沒有這么樂觀的估計,因為這還是取決于具體的人和團隊,而人和人的差距比人和狗的差距還大。
《硅谷101》:相比于自動駕駛剛剛成立的時候,這幾年其實已經(jīng)非常少看到這個行業(yè)拿到融資的情況了。你會覺得行業(yè)在一個寒冬期嗎?
侯曉迪:我覺得是這樣,窮有窮的活法,富有富的活法。大家可能都認為自動駕駛是一個高資金門檻的行業(yè),燒錢燒得太貴了,但是在我看來不是這樣?;四敲炊噱X,但是實際上這些錢有多少是用在探索上的?有多少錢是用在盲目擴張和其他并不有助于實際開發(fā)的事情的?我覺得行業(yè)內(nèi)耗實際上非常大的。那現(xiàn)在可能說得極端一點,就是在一個寸草不生的環(huán)境下,我們只需要做自己就可以了。
無人駕駛這個行業(yè),過去七年不變的東西就是它的商業(yè)邏輯。這個商業(yè)邏輯讓我非常堅信這件事一定能做出來,而且它做出來一定能讓我們站著把錢掙了。
《硅谷101》:馬斯克說他在今年8月份要去推robotaxi,你怎么看?
侯曉迪:我覺得首先是這樣,我是實名反對Elon Musk的,我認為他做的事情不是一個利他主義的事情,他自己是做輔助駕駛的,但是總喜歡把自己打扮成無人駕駛。我們今天談的是L4無人駕駛,去掉人并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案才叫無人駕駛,而FSD叫輔助駕駛,它不是無人駕駛。所以我們做的其實根本不是一個東西。
如果特斯拉撞死人了怎么辦?對于馬斯克來講,這不是他的責(zé)任。因為特斯拉寫得很清楚,誰駕駛誰負責(zé),所以撞死人了,是司機的責(zé)任。第二點,繞一大圈回來,他的商業(yè)邏輯還是賣車,怎么把車賣得更好是這個公司的核心戰(zhàn)略,所以無人駕駛是為了輔助他賣車的,并不是這個公司的底色。它讓你覺得它是無人駕駛,但它實際上是輔助駕駛。
再回到馬斯克發(fā)表8月 8 日要做 robotaxi 的陳述。如果他8月8日沒做出來,投資人們一定會來問我,是不是這事做不出來啦?那第二種可能是 8月8日真的運營了,然后第二天撞車了。投資人肯定也會擔(dān)心:馬斯克都撞車了,你們行不行?。窟@事果然不安全啊。好,第三種情況是開始運營了,沒撞車。那投資人們會說,你看馬斯克都做出來了,人家降維打擊你們,你們怎么辦呀?
所以馬斯克發(fā)出這個陳述的時候他就已經(jīng)贏了,我們已經(jīng)輸了,或者說他沒有贏,但我們已經(jīng)輸了。我覺得一個問題就在于,大家真的過多地去相信馬斯克說的每句話,但是如果我們?nèi)タ纯瘩R斯克之前說的事情,他有做成的地方,但是他做不成的東西更多。這個人做的很多事情還是以表演為主。他的很多言論肥了自己,但是實際上傷害到了無人駕駛整個行業(yè)。
比如說無人駕駛要不要上激光雷達這個問題,他說你有激光雷達你就弱,但是我認為黑貓白貓抓著耗子就是好貓,激光雷達弱不弱最后我們需要核算的是成本,如果加了激光雷達我們能賺錢,我們就加。我想告訴大家這件事的本源是怎樣的,這有可能并不是一個最有效率的、最有利于對自己發(fā)展方向的手段,但是我們至少不應(yīng)該去做一些有損整個行業(yè)前進的事情。
《硅谷101》:如果他們做成了,這個行業(yè)會不會就重新回暖了?
侯曉迪:首先我覺得做不成,因為之前那個車的租期到了,最近我太太特意換了輛特斯拉,我自己去開特斯拉, 10 分鐘一次接管,以我做無人駕駛這么多年的標準,它目前根本不可能做成robotaxi 的運營,至少不可能在8月8日做成Waymo程度的運營,不過當(dāng)然了,它可以在里面偷換很多概念。到時候開一個有輔助駕駛功能的出租車公司,這是有可能做到的,但是一定不是 Waymo 這種程度的。
《硅谷101》:不過特斯拉其實有在輔助駕駛上積累很多的數(shù)據(jù),這些數(shù)據(jù)能不能幫它更快地解決一些在無人駕駛上的 corner case(極端情況)?
侯曉迪:我們認為無人駕駛是一個世界級的、競賽水平很高的行業(yè)。在非常低的水平,當(dāng)你做任務(wù)a的時候,它也許能夠幫助到任務(wù)b,但當(dāng)你的水平越來越高的時候,你是做不到的。
在非常低水平,你確實可以說L2是有幫助的,誰也不能否認它是有幫助的。但是 L4 無人駕駛要解決的核心問題是什么呢?是安全性,是冗余,是當(dāng)一個系統(tǒng)的每一個模塊都有可能會失效的時候,這個系統(tǒng)還仍然能夠保障最底線的安全,這才是 L4 最難和最關(guān)鍵的部分。所以在掙錢之前它要先解決安全性的問題,但是這件事情根本不是特斯拉的設(shè)計宗旨。
02 自動駕駛的核心難題:不是少數(shù)的大問題,而是大量的小問題
《硅谷101》:你覺得自動駕駛的錯誤觀念跟正確觀念是什么?
侯曉迪:我覺得首先無人駕駛現(xiàn)在需要解決的不是一個少數(shù)的大問題,而是大量的小問題。無人駕駛最大的問題之一是運營不穩(wěn)定,而這個運營不穩(wěn)定有可能是因為網(wǎng)線質(zhì)量不行導(dǎo)致的,比如每天上傳下載數(shù)據(jù)效率很低之類的,這個事情就太復(fù)雜了,但是它絕對不是一個一句話能講清楚的大問題,而是由大量的小問題組成。我們在做的其實就是一個組織結(jié)構(gòu),這考驗的就是你的組織是否進化到具備以變態(tài)高的效率去解決大量小問題的能力。
我們不斷地去改變組織結(jié)構(gòu),去適應(yīng)新的時代,最終的目的就是讓組織用最少的人,能干最多的活,并且可以最快地去解決這個事。它必然是跟一些大公司的文化是對立的,什么時候如果一個公司認為你做不出來一個奇跡是不應(yīng)該被批評的,因為我們要包容,我們要保證團隊的氣氛比較好,這個時候這個公司就已經(jīng)死了,他就已經(jīng)不是一個創(chuàng)業(yè)公司了。
《硅谷101》:我之前跟 Cruise 的人聊,他說其實 Cruise 內(nèi)部在面臨非常大的一個問題,也是運營問題。舊金山的無人駕駛事故讓Cruise元氣大傷,這件事有一點點巧合的因素在里面,我們就不展開說了。但是其實這個是大家能看到的,大家不能看到的就是不管是你剮蹭,或者是別人故意蹭你,他們都會有一個非常大的團隊每天專門去處理這些個案性的無人駕駛車帶來的問題。
侯曉迪:對,你看這不就是運營嘛?這就是無人駕駛的運營問題。如果你落地的時候有問題,你要么是自己去扛這個運營的問題,要么就是找一冤大頭讓他來扛這個問題。首先冤大頭的數(shù)量是有限的,哪天冤大頭自己發(fā)現(xiàn)虧錢了,他也不會繼續(xù)冤下去了,所以我們不能坑我們的客戶,我認為運營一定是要無人駕駛公司自己來擔(dān)的,這是第一。
第二就是你說這種小的剮蹭問題,其實它更根本反映的是什么呢?在城市交通里面,我們的交通規(guī)則是不完善的,再具體說就是交通規(guī)則的權(quán)責(zé)劃分是不完善的。如果你在開車,右邊有一個自行車道,然后你想右拐,是不是就應(yīng)該往自行車道走?這時候誰有責(zé),誰有路權(quán),撞了以后是誰的責(zé)任?這件事是不清晰的,而且也不會清晰。因為你面對的是一個人,人們在做審判的時候總是傾向于認為機器應(yīng)該是完美服從于人的。人可以犯各種錯,人可以跟人共情,但人不會跟電腦共情。所以在這個問題上,無人駕駛在一個權(quán)責(zé)不清的交通環(huán)境下,它一定是非常難做的。
那么城區(qū)是權(quán)責(zé)不清最嚴重的地方,這就是為什么一開始我就做卡車,做了 7 年,我現(xiàn)在還做卡車??ㄜ嚻鋵嵕筒粫裨诔鞘薪煌?,尤其是擁堵的城市交通里面會遇到這么多權(quán)責(zé)不清的情況。我們的經(jīng)驗認為,即使是在最后一公里的狀況下,卡車所面臨的權(quán)責(zé)不清的交通場景也是非常非常少的。
《硅谷101》:所以你覺得高速是一個比城市更容易實現(xiàn)無人駕駛的地方?
侯曉迪:對,而且卡車的無人駕駛,我不用去解決這些不可解的問題——既要守交通規(guī)則,又要確保乘客的安全和乘客乘坐體驗的舒適,同時我還要需要確保周邊其他道路交通的參與者的安全,這三個東西放在一起就是不可解問題。
比如機器能否壓雙黃線這個問題。很多時候如果壓雙黃線,我就能夠比較快速繞過去解決一個問題,但是壓雙黃線就是違反交通規(guī)則了。那如果我遵守交通規(guī)則慢慢等著,乘客可能會覺得我太慢了,然后給差評。此外,我還要跟其他不守交通規(guī)則的人去競爭,并且出了責(zé)任以后,我會被放到一個非常不利的被審判的位置上,因為我是電腦,我就應(yīng)該把事情做完美。這三個東西加起來,無人駕駛就很難了。
但是如果第一我沒有乘客,第二我可以犧牲運營的時間和效率去確保我的安全和合規(guī),只要這個矛盾發(fā)生的概率足夠小,它就能是一個合理的商業(yè)模式。
03 大模型里有成千上百的小創(chuàng)新,無人駕駛都能用上
《硅谷101》:因為大模型特別火,你覺得大模型對自動駕駛的技術(shù)會有什么幫助嗎?
侯曉迪:大模型非?;?,但是我覺得絕大部分談大模型的人根本不懂什么是大模型。我認為大模型不是一種參數(shù)越多就越厲害的東西,它是一種具備了遷移能力的模型。在 computer vision 領(lǐng)域,其實很久以前人們就已經(jīng)發(fā)現(xiàn),當(dāng)一個模型訓(xùn)練到一定程度以后,它的內(nèi)蘊表達是具有很高價值的,這個內(nèi)蘊表達能夠以比較低甚至是零成本遷移到另外一個任務(wù)上,這就是模型的遷移能力,是它推動了這一波大模型。
在以前沒有遷移能力的時候,適應(yīng)成本是非常高的。當(dāng)你的系統(tǒng)學(xué)會了做一件事兒,想用它做第二件事時,需要把原來做好的系統(tǒng)再放到一個看起來相似但不完全相同的場景下,成本非常高。那么現(xiàn)在這種遷移成本變得越來越低。
遷移成本,也就是落地成本的降低,使得很多事情變得可做了,我覺得這就是人工智能這一次給大家?guī)淼谋容^大的啟示。但是我想說這不是一朝一夕的事情,其實在 deep learning 2012年被提出以后, 我們每幾年就能發(fā)現(xiàn)遷移能力、泛化能力在不斷提升。我作為一個從業(yè)者,看到的是一個漸變的過程,它不是一個突變的過程。
如果咱們做個科技考古,真正出圈的事情是ChatGPT,但是GPT 1、GPT 2的大模型從根本上跟 GPT 3 或者 ChatGPT 背后的GPT 3.5,能力差距到底有那么大嗎?我覺得其實沒有。從學(xué)術(shù)角度來看,它是一個很連續(xù)的過程,但是ChatGPT出圈恰恰是因為它把問答這件事做好了,能讓一個普通老百姓感受到語言模型的威力。
而諷刺的是問答這件事做好,背后的技術(shù)能力中我覺得最重要的是 RLHF(Reinforcement Learning with Human Feedback ) 這個技術(shù),這個技術(shù)的賣點恰恰是說我可以用 1% 的參數(shù)量就能達到一個跟之前更大的模型一樣的效果。所以這件事兒其實反倒不是大模型給你帶來的優(yōu)勢,而是說我可以提升學(xué)習(xí)的效率,使得我的模型能達到更好的效果。
所以在我看來的話,首先模型學(xué)習(xí)效率的提升是一個主旋律,在這個主旋律下,當(dāng)?shù)竭_了一個閾值以后,它進入到公眾視野,大家就開始說這個事情變得很厲害,它可能突然能改變世界,但是從學(xué)術(shù)角度看的話,它是一系列的小創(chuàng)新疊加起來產(chǎn)生到今天這樣一個效果。
當(dāng)然我相信很多人會談Scaling Law,但是這不是今天才發(fā)現(xiàn)的,任何非參數(shù)模型都有Scaling Law。10 年前我們談 Kernel Method,談非參數(shù)學(xué)習(xí),任何非參數(shù)學(xué)習(xí)里面你都可以說我們的參數(shù)量更大,我的學(xué)習(xí)效果就是更好,這是一個公認的事情,所以我覺得它只是陳述了一個必然現(xiàn)象,但是這個必然現(xiàn)象不應(yīng)該是我們認為的唯一福音。
《硅谷101》:那么現(xiàn)在更大的模型出來了,它有在一些方向上表現(xiàn)出更好的效果,在這個過程中,你覺得已經(jīng)訓(xùn)練出來的這些技術(shù)有沒有可以用到自動駕駛的?因為你的研發(fā)分很多個環(huán)節(jié),有沒有哪個環(huán)節(jié)能夠用到大模型,讓它變得更好的?
侯曉迪:全部環(huán)節(jié)都能用上。首先我們把大模型打散,不要把大模型當(dāng)成是一塊大石頭,大模型可能是一把沙子,它里邊有成千上萬的小創(chuàng)新。這里邊幾乎所有的小創(chuàng)新如果能夠擇其善者,它一定能全方位地提升一個公司的科技競爭力。
舉一個具體一點的例子,比如預(yù)訓(xùn)練這件事,對于大模型來講,可能有100 篇 paper 在講它在預(yù)訓(xùn)練過程中的各種奇跡淫巧。那傳統(tǒng)的范式是,我先招一個標定團隊,標定 1000 萬張照片,再把這 1000 萬張照片放到 Deep Learning 里邊,訓(xùn)練出一個結(jié)果來,然后完成一個神經(jīng)網(wǎng)絡(luò)的冷啟動過程。而當(dāng)這些paper中的各種奇跡淫巧都疊加起來以后你會發(fā)現(xiàn),好像我并不需要用傳統(tǒng)的范式了,現(xiàn)在我可以有各種花式的方法降低我的標定成本,提升我對于未標定數(shù)據(jù)的消化能力。最終使得整體的開發(fā)成本降低。
我們并不是應(yīng)用了大模型,而是應(yīng)用了比如100個奇跡淫巧中的36個,用上了這些小竅門,我們的冷啟動問題就非常低成本高效率的解決了。
《硅谷101》:所以我理解其實在整個過程里面,你們不僅僅只是用模型的結(jié)果或者接口,而是你們會去學(xué)他的研究方法,然后看他的研究方法能夠從根本上去改變哪些問題。
侯曉迪:誰也不會直接用別人的模型,就你一定得自己搞自己的模型。2012年以后大家都在用神經(jīng)網(wǎng)絡(luò),那我們也在用神經(jīng)網(wǎng)絡(luò),但肯定用的是自家的神經(jīng)網(wǎng)絡(luò),你怎么去訓(xùn)練呢?訓(xùn)練的過程里邊有特別多的門道,你怎么把預(yù)訓(xùn)練的數(shù)據(jù)準備好、你怎么訓(xùn)練、要買多少張GPU、怎么做能夠讓 training 變得更有效率……這些所有的東西都是創(chuàng)新的一部分。在我看來,新的時代就是在整個行業(yè)生命周期的各個部分都賦予了我們新的提升效率的手段和新的思路。
04 管理與招人:在火箭上不挑座位
《硅谷101》:你覺得在你的管理經(jīng)驗上對你啟發(fā)最大的人或者事是什么?
侯曉迪:一個是我早期特別喜歡Andy Grove的兩本書,一本是《Only the Paranoid Survive》,但那本書我覺得它有太強的時代背景,但是另外一本書時代性沒有那么強,換句話說,它過了這么多年仍然適用,叫做《High Output Management》。這個書其實就是著眼于作為一個管理者需要做的事情,這可能是在 2022 年以前,我覺得對我影響最大的一個理念或者一套系統(tǒng)。
之后我覺得對我影響更大的是曾鳴教授的一些言論和他的一些公開課。其實我覺得作為一個創(chuàng)業(yè)者,不要只去想下一輪融資的時候,我要把自己打扮成什么樣子,曾教授的話叫做“看十年,想三年,做一年”。如果我們的戰(zhàn)略永遠是為了下一輪融資怎么活下來,那太沒理想了。我們需要想的是,如果要做一個能代表十年二十年的業(yè)務(wù),我們應(yīng)該怎么去設(shè)計一條路徑,使得我今天做的事情在五年以后仍然是有效果的?
我覺得很多時候創(chuàng)業(yè)者是覺得一個項目喜歡就去做,但是很多時候這是停留在直覺上,而直覺是會因為喜怒哀樂改變的,比如說現(xiàn)在這一輪融資壓力好大呀,那公司是不是應(yīng)該朝著這個方向走一走?這種時候你的直覺就被恐懼所支配,動作就可能變形,雖然這次融資故事講出來了,但是當(dāng)包袱背在身上,你就很難卸掉了。
所以很多時候,對于一些在戰(zhàn)略上錯誤的事情要堅決地說不,但是“堅決說不”的底氣從哪兒來?這是戰(zhàn)略帶給我們的一個全局思考架構(gòu),這個全局的思考架構(gòu)能幫助我們戰(zhàn)勝戰(zhàn)術(shù)上需要勇氣說不的事情。
《硅谷101》:當(dāng)你更著眼于長期的時候,其實短期跟長期之間是有一個平衡的。比如說你要去融資的時候,你有時候階段性的需要沖到一些里程碑,你會覺得有在這兩者之間發(fā)生沖突的時候嗎?
侯曉迪:我覺得戰(zhàn)略就是為了讓這兩者不發(fā)生沖突。如果從比較短期來看,那我現(xiàn)在最不該做的就是無人駕駛了。去做機器人,尤其是做兩條腿的機器人現(xiàn)在是很容易融資的。人家一看兩條腿的,具身智能。對,記住我這句話,凡是拿兩條腿兒出來賣的都是騙子,我至今沒有看到兩條腿兒可以產(chǎn)生具體的商業(yè)價值的點。
人形機器人滿足的是一種大家對科幻的幻想,我覺得這就跟會飛的汽車一樣,是由幾十年以來的科幻帶給人類社會的價值,但是科幻從來不是從商業(yè)邏輯出發(fā)的,科幻是因為酷,所以才被提出來的,這件事情引起的是你的情感共鳴,但是它從來不是引起的你的商業(yè)邏輯共鳴。
這個世界的悲慘之處就在于有很多投資人是投情感共鳴的,但是如果你真的作為創(chuàng)業(yè)者想把事情做出來,你要做的是商業(yè)邏輯上的正確性,這兩者很多時候是矛盾的,我認為最典型的兩個,一個是兩條腿的機器人,一個是會飛的汽車。在科幻里,汽車能夠飛來飛去,但是我們從物理上看,我們的能量儲存、能量使用效率并沒有達到能讓車飛起來的一個狀態(tài)。
《硅谷101》:所以你覺得馬斯克的人形機器人 Optimus 還有波士頓動力都是騙子?
侯曉迪:Boston Dynamics 是一個我非常敬佩的長期主義的公司,除了兩條腿 ,它也有四條腿的機器人。它想先回答的問題是四條腿甚至兩條腿的東西有沒有可能做出來,它是在探索控制論的邊界。所以這么多年它在做的事情是堅持不斷地給自己加難度,去做一個科學(xué)探索。
但是我覺得不應(yīng)該用具身智能突然畫一個很大的餅,我認為我不喜歡的地方就是現(xiàn)在畫的這個餅過大,而這個餅里邊缺失的環(huán)節(jié)過多,但是大家在評估這個產(chǎn)業(yè)時,又會集體性的選擇忽視其中缺失的環(huán)節(jié),它成為了一個暫時無法證偽的愿景。
如果你看到一個趨勢就不加節(jié)制的外推是很愚蠢的,但凡你了解事情更根本的運行規(guī)律,并且能從第一性原則出發(fā),實際上就能夠推演出來很多決定性的限制因素。而這些限制因素會幫你更準確地預(yù)測未來,于是很多時候你就會看到你預(yù)測的未來比別人預(yù)測的未來結(jié)果要悲觀很多。
但是我的本意并不想過度批判機器人,我覺得現(xiàn)在有很多的任務(wù),我們確實發(fā)現(xiàn)了曙光,比如它的泛化能力變得比以前更強了,它能解決更多具體的問題了。但是我想說的是,如果今天就要做兩條腿、并且拿兩條腿作為賣點的機器人,這件事情我是堅決反對的,但是你說這個機器人可以在更大的規(guī)模上去替換掉在工廠里擰螺絲的人,這件事我是認同的,而且我覺得這件事在比較近的未來就會發(fā)生。
《硅谷101》:你怎么去定義一個好的團隊?在你看來,什么樣的團隊是能夠解決 L4 運營的最好的團隊,如何去組建這樣一個團隊?
侯曉迪:我沒法定義一個好的團隊,但我能給出好團隊的一些特性。我能想到的第一個特性就是這個團隊必須非常靈活,我堅信一件事情就是叫做 fluid organization,就是流動性組織,比如說我們的做 deep learning 的團隊可以去搞Infra,能做到這種程度,在這個前進方向上做得越極致,這個團隊?wèi)?zhàn)斗力就越強。
我覺得公司的文化應(yīng)該是為大家共同的事業(yè)效忠,這件事情高于你個人的利益,某種意義上有一定集體主義的色彩在,因為如果我們沒有這樣程度的認知,每一個人都問公司,我憑什么加入你們?我這么厲害的人,我加入你,我的事業(yè)的增長必須是一條最好的路徑,你要為我事業(yè)增長的這條路負責(zé),如果每個員工都這么想的話,這活兒別干了。
我希望招到的員工他可以暫時不會這個新的技術(shù),但是他是有潛力的,他是可以被培養(yǎng)的 ,首先很重要的一點就是別太把自己當(dāng)回事兒。如果這個事業(yè)是我們值得效忠的,那我們就一起為他努力,不要太去計較個人的得失。就像Eric Schmid說的,在火箭上不挑座位。
《硅谷101》:之前和你的一個投資人聊,他說你從圖森的事情出來之后,基本上沒有緩沖時間,然后馬上就投入自己新的項目中,你當(dāng)時是怎么思考的?
侯曉迪:沒有沒有,這是亂講,其實在 3 月份之前我并不知道我要做什么,我花了很多時間,在想接下來要干什么,最有價值的東西是什么呢?
那時其實正好是ChatGPT出來的時候,大語言模型的進展令我也很震驚,為什么我沒有做大模型呢 ?因為大語言模型當(dāng)下的進展是技術(shù)進展,技術(shù)進展到產(chǎn)品之間的不確定性還很長,我已經(jīng)走過這樣的彎路了。當(dāng)時我看到deep learning 在圖像領(lǐng)域的進展,就去搞了第一家公司知圖科技,做了一年以后發(fā)現(xiàn)其實這里邊技術(shù)并不能夠成為商業(yè)模式中最主要的部分,就是在商業(yè)上的不確定性,并不是一個技術(shù)問題。
而這個不確定性現(xiàn)在出現(xiàn)在大模型領(lǐng)域,到底什么樣的商業(yè)模式對于大模型領(lǐng)域是合適的、真正能賺錢的?到底是大公司能先跑出來,還是小公司?最有早期應(yīng)用價值的是哪部分?這些問題我都無法回答,所以我不應(yīng)該因為一個技術(shù)強開,就進入到這個領(lǐng)域里面,我還是覺得應(yīng)該說怎么賺錢,才是最基本的問題,也是最難回答的問題,回答清楚這個問題才能夠進入到這個領(lǐng)域里。
所以最后我經(jīng)過了仔細的權(quán)衡,還是認為過去 7 年我在無人駕駛領(lǐng)域的觀察讓我看到了這個領(lǐng)域的不變性,這是我最有價值的經(jīng)驗和知識。
我覺得每一個投資人都會說,哎呀曉迪你不該去做無人駕駛,你該做點別的,你要做大模型,我現(xiàn)在就給你投錢。我說我不做大模型,我們都不清楚未來會是什么樣。無人駕駛是我明確一定能做出來的事情,我還是想去做這個確定性更高的事。作為一個長期主義者,我看到的是長期的確定性,而這件事情的價值被很多沒有長期主義視野的人低估。
如果把時間的窗口拉到十年,我很難想象人類作為一個種群,十年之后還由人來開車。物流系統(tǒng)必須有一次它的迭代和升級,這個升級由誰來完成?這個使命就放在這里,我想把這個使命實現(xiàn)。
05 世界模型:新瓶裝舊酒
《硅谷101》:現(xiàn)在全球的自動駕駛到了什么樣的一個水平呢?它面臨的主要問題跟瓶頸是什么?
侯曉迪:革命進入低潮期,面臨著由加息帶來的純資本問題,但是資本又是很重要的一個問題。資本能澆灌一個行業(yè),行業(yè)里邊有了閑錢,人們的創(chuàng)造力就會得到解放,去發(fā)現(xiàn)一些可有可無的東西。早期技術(shù)的發(fā)展和產(chǎn)品的發(fā)展可能沒有那么直接相關(guān),很多時候你為了做一個技術(shù),會發(fā)現(xiàn)產(chǎn)品最后一團糟,有的時候你為了做一個產(chǎn)品,你發(fā)現(xiàn)技術(shù)用在了你想象不到的地方。但是在這之后,技術(shù)就有可能就會被用在更正確的產(chǎn)品上。
不過這個低潮期跟技術(shù)沒什么關(guān)系,技術(shù)還是穩(wěn)步甚至加速在發(fā)展。和大模型領(lǐng)域不同,無人駕駛行業(yè)的產(chǎn)品形態(tài)已經(jīng)越來越清晰,這是我認為我過去幾年最大的價值。
《硅谷101》:Sora 出來之后,這種世界模擬器的概念是不是能夠賦能無人駕駛界可以發(fā)展的更快?
侯曉迪:咱們來個長議題,咱們談?wù)勈澜缒P?。什么是世界模型呢?世界模型就是新瓶裝舊酒,一九八幾年的時候,機器視覺這個行業(yè)誕生的那個時刻, David Marr 老師就提出來了一個叫做 mid-level representation,他的這個概念也引導(dǎo)我入行,引導(dǎo)我讀完整個本科初步的探索以及博士深入的探索。
在計算機視覺領(lǐng)域,我覺得 mid-level representation 是我最喜歡的一個議題。mid-level representation 后來也叫 internal representation(內(nèi)蘊表達)。過了幾年 deep learning 出來了,大家認為 deep learning 解決的核心問題是什么呢?其實是 representation 的問題。于是有一個特別著名的會議在 deep learning 誕生以后提出來,叫做 ICLRA, 這個會本身講的就是 the learning of the representation,就是說這個內(nèi)蘊表達或者內(nèi)蘊表征是可以被學(xué)到的,而且應(yīng)該被學(xué)到,而怎么學(xué)就是我們探索的事情。
這件事情不斷地被人包裝,2024 年的版本叫做世界模型,但是這個世界模型首先可大可小,它的精度也是可糙可細。所以我覺得首先世界模型這件事它確實是一個本質(zhì)問題,但是這個本質(zhì)問題不新,其實 40 年前就已經(jīng)有了,而且確實是 40 年以來貫穿整個計算機視覺和模式識別發(fā)展的核心問題。但是愚者的原罪在于外推,外推的地方就是說大家談到世界模型就會把它認為是一個可以無限高精度的、無限遠未來的外推模型,這是不對的,這就是我說的錯誤的外推世界模型。對外在世界的內(nèi)蘊表達,這件事情是我們一直以來的追求,是我們整個行業(yè)幾輩幾代人一直以來的追求。但是不要把這個事情它的最終形態(tài)的結(jié)果就當(dāng)成現(xiàn)在已經(jīng)有的東西。
那我來再說說 Sora 是什么?Sora 是一個學(xué)了一套東西,使得它讓你看起來這個東西像那么回事。很多年前有一個迪士尼電影叫做冰雪奇緣。
冰雪奇緣這個電影它干的事是什么呢?是當(dāng)時電影工業(yè) CG Computer Graphics,人們突然提出了一個新的算法,能夠模擬雪這種非牛頓流體的流體力學(xué),雪不是液體,也不是缸體,它是一種有一定粘連性,但是又能散開的東西。如果你像用每一個粒子去模擬雪的動態(tài)過程的話,那累死了,機器做不了。
但是如果我們找到了一種簡化的近似算法,讓這坨雪看起來像是雪,那我們就覺得這件事情就是計算上足夠便宜,可以用渲染集群渲染出一個動畫片。所以是基于一個算法的創(chuàng)新,做了這個動畫片,就為了這盤醋包了一鍋餃子??赡芪艺f的有點夸張,但是確實冰雪奇緣之所以能做出來,背后最大的創(chuàng)新是 Computer Graphics 的創(chuàng)新,但是這種創(chuàng)新并不能夠讓你用到比如說飛機的流體力學(xué)上,它跟真正的物理真實是兩碼事。他所做的只是看起來像是真的,那么 Sora 給我們帶來的一個狀態(tài),也是說他做了一個模擬器,看起來像是真的,但是這件事情不是物理真實。
《硅谷101》:業(yè)界對于自動駕駛的長尾問題,現(xiàn)在還有什么好的方法去解決嗎?
侯曉迪:我覺得長尾問題其實也是一個偽命題,很高興你們提出來這個事情。在我看來長尾問題,比如說我見到鱷魚怎么處理?我見到大象怎么處理?我見著一個固定翼飛機停在高速公路上,我怎么處理這件事情?大家都覺得它是長尾問題。比如在我的前進路徑上,見到了一個沒見過的物體,我怎么處理?但是如果你把它包裹成了一個更通用的一類問題,它是很好處理的。
比如說我們曾經(jīng)就見到有固定翼飛機停在高速公路上,那我們的處理方法很簡單,停車對吧?這是好處理的情況,但是其實人們感覺長尾問題很難處理,是很難當(dāng)場讓這個車做出一個人類經(jīng)過深思熟慮以后認為最優(yōu)的操作,再去跟這個場景進行交互,這件事情是難的。
首先機器的感知沒那么難,尤其再加上激光雷達或者雙目視覺以后,各種各樣的問題你都能識別,但是你如何跟他進行交互?如果一個鱷魚來了,一個駱駝來了,一個兔子來了你都要怎么操作?對于這種問題確實是你需要回答的長尾問題,但是我覺得我們的無人駕駛卡車是不需要做這樣的回答的。
如果當(dāng)你有乘客在無人駕駛轎車里面的時候,你要顧及一個不可能三角,就是交規(guī)要滿足乘客的體驗、要滿足路上其他的道路參與者的安全和他們的感受,在這個不可能三角的情況下,確實存在有很多你需要特事特辦的討論。但是我覺得無人駕駛卡車如果在全局平均意義下來講,我們的運營成本是可接受的。運營產(chǎn)生的額外成本,比如我因為見到飛機停在路邊兒這件事情產(chǎn)生的成本,是能夠被我的每英里成本所消化的,那我覺得這事兒我們就可以做。