文|智駕網(wǎng) 黃華丹
“物以稀為貴,現(xiàn)在一臺8卡的A800服務器,已經(jīng)賣到了140萬。”某云服務商的業(yè)務人員表示。“現(xiàn)在大模型的問題主要是兩個,一是算力,一是落地的場景。”
A800已經(jīng)是英偉達A100的閹割版,但隨著國內百模大戰(zhàn),英偉達GPU的需求水漲船高,專供中國市場的A800,H800價格也已經(jīng)超過了A100,H100原版售價,且依然一卡難求。限于臺積電產能,據(jù)稱A800,H800的交期已經(jīng)排到了年底或明年。
此前有報道稱字節(jié)跳動已經(jīng)像向英偉達訂購了價值10億美元的GPU產品,而日前,英國《金融時報》又援引接近英偉達的相關人士發(fā)言稱,百度、字節(jié)跳動、騰訊和阿里巴巴向英偉達下單訂購了50億美元的芯片。
50億美元什么概念?英偉達2022年總營收為269.14億美元,僅這一筆交易,就占了其全年營收的18.6%。折算成人民幣約為362億,以車企為對比,2022全年小鵬營收268.55億,這筆費用超過小鵬全年收入。
而作為本輪AI浪潮最大的獲益者,賣鏟人英偉達在大賣之外,也在進一步推出更先進的產品。
剛剛過去的世界頂級計算機圖形學會議SIGGRAPH上,黃仁勛用大量篇幅介紹了新一代GH200超級芯片平臺。
除了為NVIDIA GH200 Grace Hopper配備更加先進的HBM3e內存外,下一代GH200超級芯片平臺還將具備連接多個GPU的能力,從而實現(xiàn)更強大的計算能力,可處理世界上最復雜的生成式工作負載。
從數(shù)據(jù)來看,HBM3e內存要比當前的HBM3快50%,10T/s的組合帶寬,使其可運行比上一版本大3.5倍的模型,同時通過3倍更快的內存帶寬提高性能。預計將于2024年第二季度推出。
黃仁勛的自信是,英偉達高性能GPU,屬于“買得越多,省得越多”。但在當前的地緣政治背景下,后續(xù)在中國市場會有怎樣的發(fā)展,暫時還是個未知數(shù)。
與之形成鮮明對比的,是一大批初創(chuàng)企業(yè)的退潮。Wind數(shù)據(jù)顯示,今年A股中24家AIGC概念股合計已發(fā)生67筆減持。
在大洋彼岸的硅谷,同樣是熱潮過后的冷靜。根據(jù)極客公園對硅谷多名相關人員的采訪,在ChatGPT爆火半年后,硅谷巨頭們經(jīng)歷了最初的恐慌,已經(jīng)完成對OpenAI的祛媚,開始根據(jù)自身已有優(yōu)勢擴展布局,尋找大模型能為之助力,甚至可能發(fā)生顛覆式創(chuàng)新的方向。也就是說,開始根據(jù)原有優(yōu)勢業(yè)務,尋找真正能讓大模型落地的場景。
例如Meta是將大模型視為下一代計算平臺,開放其Llama2商業(yè)許可,并與微軟Azure合作對外提供服務,與高通合作推進在終端運行Llama2,即同時提供to B和to C的能力。亞馬遜則圍繞其B端業(yè)務推出了大模型服務Amazon Bedrock,既包括自研的大模型,同時也與Stability AI、A121 Labs等基礎模型提供商廣泛合作,幫助企業(yè)靈活構建生成式AI應用,降低開發(fā)者使用門檻。
巨頭們的業(yè)務開始向大模型服務轉型,而對更多初創(chuàng)企業(yè)來說,利用大模型實現(xiàn)垂直領域的應用是更現(xiàn)實的落地路徑。
總之,很少有人再將做一個通用大模型視為目標。
01 上車是大模型落地的一大場景
打造垂直領域的專業(yè)模型,從目前來看,直接上云借助巨頭的算力和能力進行更便捷的研發(fā)或是一大趨勢。
模型的訓練需要消耗大量算力,無論是否有實力采購芯片,或者是否能買到芯片,對一般企業(yè)都是一大考驗。同時,也是對算力的巨大浪費。上云,是更好的選擇。包括前文提及的亞馬遜云,以及阿里云、華為云和騰訊云等均提供了基于云服務開發(fā)大模型的能力。
對于大部分并沒有足夠的實力和精力去自己構建數(shù)據(jù)中心的企業(yè)來說,在云上開發(fā)成為更好的選擇。這也導致各家云巨頭對算力的需求猛增。一定意義上,這些互聯(lián)網(wǎng)巨頭成為了各企業(yè)的算力提供商。
亞馬遜云能為大模型上車提供的服務包括幫助主機廠進行軟件開發(fā),以及設計、訓練和測試自動駕駛系統(tǒng)。而此前華為云發(fā)布烏蘭察布汽車專區(qū)時推出的自動駕駛開發(fā)平臺,則可實現(xiàn)全流程覆蓋智駕開發(fā)、仿真測試、實車測試、量產上車等環(huán)節(jié)。
包括英偉達,也同樣為需要開發(fā)大模型業(yè)務的企業(yè)提供了大模型開發(fā)平臺工具NVIDIA AI Workbench,來幫助開發(fā)和部署生成式AI模型。概括來說,AI Workbench為開發(fā)者提供了一個統(tǒng)一且易于使用的工具包,能夠快速在PC或工作站上創(chuàng)建、測試和微調模型,并無縫擴展到幾乎任何數(shù)據(jù)中心、公有云或NVIDIA DGX Cloud上。
天津大學無人駕駛汽車交叉研究中心主任謝輝教授認為,通用大模型和專業(yè)模型的區(qū)別就像是本科生與工程師的區(qū)別,ChatGPT像是將計算機培養(yǎng)到了大學畢業(yè)的智能水平,專業(yè)模型就像是各個領域專業(yè)的工程師。
而上車,就是一個將大模型運用于垂直領域的落地場景。
我們已經(jīng)看到無數(shù)關于大模型上車的宣傳。從百度、阿里、華為等巨頭宣布在車端接入其自研大模型,到吉利、廣汽等車企表示將自研大模型上車,也有如毫末這樣的智駕公司推出針對自動駕駛的模型。
綜觀各家大模型上車,其應用主要可分為兩大領域,即智能座艙和自動駕駛。
斑馬智行CEO張春暉在上海車展期間的發(fā)布會上表示,汽車是大模型最好的落地場景。
從目前的市場表現(xiàn)來看,大模型上車熱鬧非凡,但實際的發(fā)展如何,還有待驗證。
02 智能座艙還需要實際落地的樣本
大模型上車的風,首先是從百度文心一言吹起的。此后,包括阿里通義千問,華為盤古大模型,商湯日日新、科大訊飛星火大模型等也先后發(fā)布并宣布上車。發(fā)展到今天,廣汽、吉利、理想等車企也開始宣布將自研AI模型上車。
相較于自動駕駛,大模型在智能座艙的落地普遍被認為更加容易,也是大部分宣傳大模型上車的企業(yè)宣傳的方向。但從目前發(fā)展來看,尚沒有車企真正實現(xiàn)大模型上車的量產交付。
一般認為,大模型接入智能座艙將加速軟件能力的升級,推動座艙實現(xiàn)人機主動式交互。例如,通過增強對乘客語音語義的理解能力,讓車載語音實現(xiàn)更深層次的個性化和自然擬人的交互,而且,還可以實現(xiàn)對駕駛員在視覺、聽覺、觸覺等多模態(tài)應用上的識別和響應,形成深度的人機主動式互動體驗,并根據(jù)駕駛員的表現(xiàn)為其提供更智能化的服務。
最接近落地的是6月奔馳宣布在美國市場為配置MBUX的車型接入ChatGPT,開啟為期三月的測試。百度則在五月測試了文心大模型上車效果。我們可以從這兩場最接近真實上車的測試一窺大模型接入座艙將帶來的改變。
從海外記者的體驗來看,接入ChatGPT的奔馳語音助手實現(xiàn)了更為流暢對話的能力,還可根據(jù)需要提供建議。不過,整體反應速度相對來說還是比較滯后。奔馳表示國內車型上并沒有接入ChatGPT的計劃。
而搭載文心大模型的百度Apollo表現(xiàn)相對更加流暢,而且,也做到了對傳統(tǒng)AIGC能力的覆蓋,例如,生成文案、圖像等,還可以切換人設,分辨不同聲音來源,同時處理多個指令。
但目前,這套系統(tǒng)也尚未實現(xiàn)真正的上車落地。此前百度曾表示包括長安、紅旗等品牌均將接入文心大模型,但目前并沒有相關信息。
最新消息是8月份百度Apollo宣布長城汽車、億咖通科技成為首批文心大模型智艙應用探索伙伴。百度Apollo已分別與長城汽車、億咖通科技基于大模型能力圍繞車載交互場景開展探索和實踐,完成多項創(chuàng)新功能在量產車型平臺上的驗證,部分功能未來有望在長城、領克、smart等量產車型上率先落地。從措辭來看,何時落地尚未確定。
智駕網(wǎng)也詢問了多家曾發(fā)布大模型上車計劃的企業(yè)。在上海車展期間宣布將接入阿里大模型通義千問的斑馬智行,同樣表示關于大模型的具體進度并不清楚,但九月初應該會有一波新的進展公布。
商湯與科大訊飛也尚無明確的相關披露。而華為的盤古大模型則已接入鴻蒙4系統(tǒng),不過在車端,預告首搭鴻蒙4座艙系統(tǒng)的是將于今年三季度正式發(fā)布的與奇瑞合作的Luxeed。
吉利和廣汽目前則處于宣布將上車AI大模型的階段。理想汽車也表示自研了Mind GPT,并將AI技術引入到車機理想同學中。
大模型上車進行得如火如荼,但可以猜測的是,真正要實現(xiàn)上車后達到自然的多模態(tài)交互,似乎并沒有普遍宣傳的那樣簡單。
03 大模型將助力自動駕駛落地,但為時尚早
而在自動駕駛領域,目前明確提出相關模型的是毫末智行的DriveGPT。其原理是按照ChatGPT的格式將輸入圖像轉換為場景的Token化表達,再用強化學習的思想去輸出自動駕駛的控制量。
毫末智行技術副總裁艾銳表示,目前,DriveGPT的應用,對于汽車算力的需求還是太大,還需要一定的時間才能解決。同時在算力提升后,對汽車的能耗也會帶來不小的挑戰(zhàn),未來需要找到一種低成本的兌現(xiàn)方式。從目前來看,這種能力只能部署在云端,讓大家通過聯(lián)網(wǎng)去使用。
同濟大學汽車學院黃巖軍教授則認為,DriveGPT在駕駛場景識別等類似ChatGPT的對話生成場景中效果是很好的,能很好地識別輸入圖像的駕駛場景。但自動駕駛并不是自然語言處理,無法將復雜的環(huán)境動力學信息理解簡化為對話的形式,以Token的方式對自動駕駛汽車進行控制。因為環(huán)境中存在的語義信息非常多,現(xiàn)在自動駕駛的做法是通過感知模塊將類似的信息提取出來,再交給規(guī)劃控制模塊。目前在云端運行的是自動化標注、駕駛場景識別、駕駛場景重構等功能,這對于之后打破自動駕駛壁壘很有必要,不過這些功能在云端運行已經(jīng)足夠了。
這也是目前已經(jīng)推出了自動駕駛相關服務的云廠商所能實現(xiàn)的能力。亞馬遜云表示主機廠可以借助生成式AI來進行模擬,以測試車輛對各種駕駛場景的響應。這些場景可能是極小概率會發(fā)生的情況,或者在現(xiàn)實世界比較極端的情況,測試并不安全(比如,在夜間、雨天和黑暗中差點撞上橫穿馬路的人)。模擬測試不僅可以提高測試效率,還將使汽車企業(yè)得以創(chuàng)建更豐富的測試場景,并提高整個駕駛系統(tǒng)的能力。
而關于大模型對標注的促進作用,理想汽車李想曾舉例解釋過:僅以自動駕駛的圖片標定為例,過去一年需要做大概1000萬幀圖像的人工標定,成本6-8元每張,一年成本接近一億。而使用大模型軟件后,通過自動化標定,過去需要一年做的事情,基本上3個小時就能完成,效率是人的1000倍。
此前,地平線聯(lián)合創(chuàng)始人黃暢也曾在接受采訪時表示,GPT在自動駕駛場景中最先應用的很可能是環(huán)境模型的預測和交互式規(guī)劃。這個場景不需要特別大規(guī)模的參數(shù)模型,因為它不是一個完整的端到端,尤其因為它更關注于預測和規(guī)劃,不用花太多精力在感知這個層面上,因此很可能在百TOPS級別的算力平臺上就能應用,三到五年內就可以初步上線。
而在完整的端到端緩解,從感知到定位地圖到規(guī)控,整個端到端的閉環(huán)做出來,黃暢認為需要一個更大規(guī)模的參數(shù)模型,大概需要五到十年的時間。
黃巖軍則認為,在將生成式大模型運用于自動駕駛中時,需要首先提出新概念新算法,模擬神經(jīng)系統(tǒng)建立類腦模型,以創(chuàng)新帶動發(fā)展;其次需要使用面向通用人工智能的生成式方法對感知對預測一整套流程進行建模,全面表征環(huán)境動力學信息;最后,在大模型建模完成之后,需要利用數(shù)據(jù)閉環(huán)的方式,不斷在長尾場景進行學習,使模型得到自我進化,才能讓大模型更好的應用于自動駕駛當中。
也就是說,目前用于自動駕駛的模型主要還是在標注、場景識別和模擬這些數(shù)據(jù)層面回傳功能的實現(xiàn),真正要用到最后規(guī)控決策的還無法實現(xiàn)。
但關于大模型在自動駕駛中的應用前景,黃巖軍顯然持樂觀態(tài)度。
“我認為,隨著通用人工智能技術的發(fā)展,未來十五年到未來二十年,生成式大模型能夠以獨特的姿態(tài)站上自動駕駛領域之巔,解決目前自動駕駛的各種邊緣場景,實現(xiàn)自動駕駛的閉環(huán)自進化?!?/p>
大模型的混戰(zhàn)仍在繼續(xù),對芯片和算力的需求似乎也尚未達到一個穩(wěn)定的狀態(tài)。而要真正看到大模型在相關場景實現(xiàn)質的飛躍,顯然也還需要時間。