界面新聞記者 | 陳振芳
界面新聞編輯 | 文姝琪
6月14日,中關(guān)村國際創(chuàng)新中心,上午七點半,已經(jīng)開始有人排隊等待入場,大模型創(chuàng)業(yè)者們開始享受到明星般的追隨與禮遇。
在由北京智源人工智能研究院主辦的“智源大會”上,李開復(fù)直言,具身智能并不一定適合創(chuàng)業(yè)者;相信Scaling Law過程中不能盲目“堆”GPU;大公司、傳統(tǒng)公司不敢采取顛覆式技術(shù),它們已經(jīng)習(xí)慣每年增長5%的預(yù)算,做和去年一樣的事情。
大模型創(chuàng)業(yè)熱,但大廠群狼環(huán)伺,在大模型降價潮的口子剛剛撕開,大廠立即下場出牌,創(chuàng)業(yè)公司艱難交手。不同于多年前的互聯(lián)網(wǎng)熱,大模型熱不到兩年,但創(chuàng)業(yè)者們已經(jīng)開始強調(diào)性價比和產(chǎn)出比。
人們還在繼續(xù)追問:大模型的落地場景在哪里?B端和C端的場景在哪里?還有哪些機會?
李開復(fù)仍然相信技術(shù)可以永久領(lǐng)先,但技術(shù)帶來的領(lǐng)先窗口期非常短暫,一旦巨頭看到你驗證了PMF(產(chǎn)品市場匹配度),他們會有很多方法超越你。最終勝出的To C(用戶端)應(yīng)用不僅需要技術(shù)優(yōu)勢,還要在時間窗口內(nèi)打造持續(xù)優(yōu)勢,比如品牌優(yōu)勢、社交鏈、用戶數(shù)據(jù),讓用戶離不開這個平臺。
會上,智源研究院理事長黃鐵軍,零一萬物CEO、創(chuàng)新工場董事長李開復(fù)與中國工程院院士、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤展開對談?,F(xiàn)場聊了關(guān)于大模型的優(yōu)勢與不足、大模型熱為自動駕駛帶來機會,具身智能和AGI等熱點話題。
以下內(nèi)容經(jīng)界面新聞編輯和刪節(jié)
談大模型:優(yōu)缺點、商業(yè)化難題
黃鐵軍:什么原因使得大模型如此成功?還有哪些欠缺的地方需要進一步發(fā)展?
李開復(fù): AI 2.0是有史以來最偉大的科技革命和平臺革命,大模型Scaling Law 的重要性在這個時代得以凸顯——人類能夠用更多計算和數(shù)據(jù)不斷增加大模型的智慧,這條被多方驗證的路徑還在推進中,還遠沒有觸達天花板,這點也讓大家非常振奮。
大模型的智慧來自于接近無損的壓縮,這點也非常重要。上世代的人工智能從業(yè)者很難想到今天會把壓縮和智能連接在一起。但Scaling Law過程中不能盲目“堆”GPU,需要有方法評估哪個方法做得更好。零一萬物內(nèi)部采用壓縮的理念去評估,讓以往漫無目的“煉丹”訓(xùn)模過程變得更系統(tǒng)也更有科學(xué)和數(shù)學(xué)根據(jù)。
大模型正面臨著一些挑戰(zhàn),如果“僅僅用更多算力就能把它往前推動”是主要方向的話,就會導(dǎo)致只有那些GPU資源豐富的公司和國家能夠在這方面勝出。但話說回來,很多國內(nèi)大模型在部分案例里接近或者打平、或者偶爾超過美國大模型。需要專注算法和工程創(chuàng)新一體化推進,避免進入“盲目堆算力推動模型性能提升”的狀態(tài)。
張亞勤:我講“三個做對了”和“三個需要改進” 。有三件事做對了。首先,規(guī)模定律Scaling Law(規(guī)模定律)的實現(xiàn),得益于對海量數(shù)據(jù)的利用以及算力的顯著提升,再加上現(xiàn)在的Diffusion和Transformer架構(gòu)能夠高效地利用算力和數(shù)據(jù),使得“飛輪效應(yīng)”得以正循環(huán)。
有人質(zhì)疑Scaling Law在2-3年后不一定有效,但我認為至少在未來五年里,它仍是產(chǎn)業(yè)發(fā)展的主要方向。
其次是“Token-Based”統(tǒng)一表述方式。在大模型中,“Token”是一個基本元素。無論是文本、語音、圖像、視頻,還是自動駕駛中的激光雷達信號,甚至是生物領(lǐng)域的蛋白質(zhì)和細胞,最終都可以抽象為一個Token。
大模型的通用性不僅體現(xiàn)在文本處理上,還擴展到了多模態(tài)領(lǐng)域,甚至可以生成如蛋白質(zhì)等復(fù)雜結(jié)構(gòu)。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有著廣泛的應(yīng)用前景。以上這三個是大模型做對的。
大模型現(xiàn)階段主要存在以下三個問題:
一是大模型計算效率低下,與人類大腦的高效性形成了鮮明的對比。如何借鑒人類大腦的計算方法,在降低計算耗能、提高效率方面進行探索和創(chuàng)新,是一個值得關(guān)注的方向。
其次,大模型尚未能真正理解物理世界,相關(guān)的推理能力、透明性以及幻覺等問題都還在研究中。
此外,大模型做得再好,它在生成式表述與對真實世界之間仍存在矛盾。需要探索將生成式大模型與現(xiàn)有的“第一性原理”或真實模型、知識圖譜相結(jié)合,雖然目前已經(jīng)有人采用RAG技術(shù)或進行微調(diào)。但我認為這些方法并非根本解決方案。未來五年內(nèi),會有一個全新的架構(gòu)取代目前的Transformer和Diffusion模型。
最后,大模型欠缺的地方是邊界問題。現(xiàn)在大模型無法知道“我不知道什么”,這是目前要解決的問題,是它的邊界效應(yīng)。
黃鐵軍:有人認為大模型是實踐、工程,經(jīng)驗主義的東西,沒有理論基礎(chǔ),說得不好聽叫“不靠譜”,不知道你怎么看這個問題?
李開復(fù):科學(xué)和工程缺一不可。如果只做工程,不了解“第一性原理”,沒有數(shù)學(xué)根據(jù)、沒有辦法評估不同方法的效果,考慮到高昂的算力成本,這樣的摸索肯定做不出好模型。如果只在實驗室里雕花,寫論文,期待有工程人才把論文做成產(chǎn)品,肯定也是不行的。
零一萬物的經(jīng)驗是,每個做AI、做模型的Researcher要懂Infrastructure、都要懂推理、知道成本問題。訓(xùn)練模型的過程中絕對不只是寫Paper,還要考慮怎樣系統(tǒng)化、工程化地做數(shù)據(jù)工程,還有底層的AI Infrastructure。GPU這么昂貴,如果把一張當(dāng)成兩張、三張使用,任何公司都會得到好處,所以科技和工程這兩方面缺一不可。
黃鐵軍:大模型產(chǎn)業(yè)化最大的場景在哪里?移動互聯(lián)網(wǎng)這么多年,To B、To C ,這兩個大賽道哪個更有機會?為什么?
李開復(fù):簡單來說,短期在中國To C 更有機會,但國外兩者都有機會。To C方面,AI 2.0 時代會和PC、移動互聯(lián)網(wǎng)時代一樣,第一個階段是生產(chǎn)力工具,包括信息獲取。第二個階段可能是娛樂、音樂、游戲。第三個階段是搜索;再下一個階段可能會是電商、社交、短視頻、O2O的應(yīng)用出現(xiàn)。
應(yīng)用要能賺錢并且解決問題,所以第一波潮流會出現(xiàn)生產(chǎn)力工具,但越往后的難度越高——高用戶量的應(yīng)用商業(yè)模式往往先堆積用戶,再找變現(xiàn)模式,所以應(yīng)用成本一定要低,試錯難度大、所需要的投資也更多。
遞進模式不會有特別大的改變,To C應(yīng)用會從生產(chǎn)力工具一步步走向短視頻類應(yīng)用,在普及順序上會按照這六個階段進行。
但是,大模型領(lǐng)域做應(yīng)用的推理成本太貴。最近零一萬物提出了TC-PMF概念(技術(shù)成本產(chǎn)品市場契合度),這個概念是指,當(dāng)你考慮PMF時,還要把技術(shù)的需求、實現(xiàn)難度和成本考慮進去。做應(yīng)用一定要考慮到剛才這六個階段誰先誰后、什么時候做、提早做。
此外,做應(yīng)用還要綜合考慮技術(shù)、成本的性價比,大模型To C應(yīng)用不像過去移動互聯(lián)網(wǎng)時代,產(chǎn)品經(jīng)理一個人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。
To B應(yīng)用上,大模型有可能在To B方向上帶來更大價值,而且比To C更快實現(xiàn),但To B領(lǐng)域存在以下幾個挑戰(zhàn)。
首先是大公司、傳統(tǒng)公司不敢采取顛覆式技術(shù),它們已經(jīng)習(xí)慣每年增長5%的預(yù)算,做和去年一樣的事情。
第二個挑戰(zhàn)在中國比較嚴重,許多大公司沒有認識到軟件的價值,為軟件付費意的意識有待提高。
現(xiàn)在有許多大模型公司在競標(biāo)時越競越低,最后做一單賠一單,都沒有利潤。我們在AI 1.0時代曾見過這個現(xiàn)象,現(xiàn)在它在AI 2.0時代又重現(xiàn)了。這種心態(tài)導(dǎo)致部分大公司只愿支付很低的價格,大模型公司也只能給出折中的方案,達到驚艷效果的寥寥無幾。零一萬物堅決做To C,不做賠錢的To B,而是做能賺錢的To B。
黃鐵軍:在To B、To C方面,大模型產(chǎn)業(yè)的最大場景會在哪些場景落地?
張亞勤:在應(yīng)用和服務(wù)層面,先面向消費者(To C)再面向企業(yè)(To B)。To B的周期相對較長,而To C的應(yīng)用產(chǎn)品則可以迅速推出,這與過去的PC互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展路徑基本一致。
在基礎(chǔ)設(shè)施層,目前真正盈利的主要集中在To B領(lǐng)域,特別是在芯片、硬件、服務(wù)器等。像英偉達、AMD等芯片制造商,以及服務(wù)器、HBM存儲、InfiniBand和NVLink等相關(guān)技術(shù)的提供商,他們目前是盈利最多的。
AI路徑上,我在過去十年中一直強調(diào)三個關(guān)鍵領(lǐng)域:信息智能、物理智能(即具身智能)、生物智能。在具身智能階段,To B的應(yīng)用可能會比To C更快落地。然而,在生物智能階段,情況可能相反,To C的應(yīng)用可能會先于To B出現(xiàn)。盡管每個領(lǐng)域的具體情況可能有所不同,但總體來看,無論是To C還是To B,都將存在開源模型、商業(yè)閉源模型、基礎(chǔ)大模型,以及針對垂直行業(yè)模型和邊緣模型。
談具身智能與自動駕駛
黃鐵軍:在具身智能這么多可能性里面,到底是熱門的人形機器人會先有機會,還是已經(jīng)有相當(dāng)多積累的自動駕駛會有機會?
張亞勤:無人駕駛L4+是具身智能第一個、最大的應(yīng)用,也會是第一次實現(xiàn)新圖靈測試的應(yīng)用。
無人駕駛就是一個開車的特殊機器人,它在安全性已經(jīng)比人類駕駛要高至少10倍,不管是Waymo還是百度阿波羅的商業(yè)運營。
盡管安全性很好,當(dāng)前無人駕駛?cè)源嬖谝恍┨魬?zhàn)——開得安全但不夠老練,不夠“老司機”。無人駕駛要變成主流,要通過新圖靈測試的話,既是好司機,也是老司機。我認為無人駕駛在明年會成為第一個真正實現(xiàn)具身智能或者物理智能的AGI。
大模型的推出幫助無人駕駛解決了很多歷史問題,比如長尾問題、數(shù)據(jù)生成問題,百度已經(jīng)積累了1億公里的駕駛數(shù)據(jù),但數(shù)據(jù)仍然不夠,生成式人工智能可以生成更多數(shù)據(jù)。大模型的應(yīng)用使得無人駕駛系統(tǒng)能夠?qū)崿F(xiàn)端到端的智能化,也意味著無人駕駛會有更高的智能性,加速其在實際場景中的落地應(yīng)用。
李開復(fù):我同意亞勤的分析。創(chuàng)新工場投了6家無人駕駛公司,發(fā)展都不錯?,F(xiàn)在無人駕駛面臨的一個巨大機會——終于可以落地了。在L2、L3階段,包含城市自動小巴等場景。到L4、L5階段,要無限制的開放場景,全球都面臨著挑戰(zhàn)。我在美國看到Waymo依然在往前推進。特斯拉FSD雖然不是完全的大模型,但也用了類似end to end(端到端)的概念。至于不用FSD方案能產(chǎn)生多少產(chǎn)業(yè)價值,希望我們投的這五六家公司和亞勤的前公司都能夠證明,中國能做得很好,也許這是很大的市場。
過去一年,我專注于零一萬物,沒有做自動駕駛研究,但我確定FSD會帶來新機會。把大模型的概念放到無人駕駛,是我非常期待能夠在下一階段看到的事。但這是需要巨大的投資,不見得適合初創(chuàng)公司。
具身智能很重要。但我也必須說,大模型非常適合虛擬世界,例如金融公司的后臺、客服等等場景,大模型可以迅速落地產(chǎn)生價值。如果你的需求是軟件,直接對接大模型就好了。一旦大模型接入物理世界就會面臨各種問題:安全、機器、機械、故障問題等,難度會大很多倍。
從創(chuàng)業(yè)者的角度來說,如果希望短期落地產(chǎn)生價值、能賺錢,做虛擬世界容易很多。具身智能可以很好地結(jié)合大模型多模態(tài)能力,而且一旦“具身”后就可以產(chǎn)生數(shù)據(jù),形成數(shù)據(jù)飛輪閉環(huán),有很大的想象空間。但短期要做好,難度很大。具身智能肯定要走很漫長的道路。
對人形機器人,我有一些特別的看法:絕大多數(shù)應(yīng)用場景并不需要人形機器人,像是波士頓動力那種很酷的、跳來跳去的機器人,真的會有很多應(yīng)用場景嗎?絕大多數(shù)場景幾個輪子不是更容易移動嗎?很多科學(xué)家和創(chuàng)業(yè)者都是從小熱愛科技,希望能復(fù)制一個人,這無可厚非。如果你很簡單地問VC,VC給出的恐怕是更務(wù)實更理性的判斷。
談AGI的定義、實現(xiàn)、安全
張亞勤:最近經(jīng)常有人問我,AGI到底什么時候可以實現(xiàn)?我比較樂觀,認為15-20年內(nèi)可以就實現(xiàn),并通過新圖靈測試。
5年內(nèi),在信息智能領(lǐng)域,對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試。10年內(nèi),在物理智能領(lǐng)域,實現(xiàn)大模型在物理環(huán)境中的理解與操作能力,通過新圖靈測試。20年內(nèi),在生物智能領(lǐng)域,聚焦人體、腦機接口、生物體、制藥和生命科學(xué),實現(xiàn)大模型與生物體連結(jié)的生物智能,通過圖靈測試。
要是三年前問我這個問題,我可能會說50年實現(xiàn)AGI,隨著大模型的發(fā)展,現(xiàn)在20年能實現(xiàn)。
黃鐵軍:AGI是要超越人類、有自我意識,有自己的目標(biāo)、獨立做判斷。你們剛才談的是這樣的AGI嗎?
李開復(fù):AGI的定義是因人而異的。如果把AGI定義為能做人所能做的一切事情,那么我今天沒有辦法定義,因為它還有太多未解之謎。只把人當(dāng)作金標(biāo)準(zhǔn),就像在問車什么時候能跟人跑的一樣快。
只要Scaling Law繼續(xù),只要AI一年比一年更聰明,它會多做比如5倍的事情,IQ會提升20個點。
我是做投資和創(chuàng)業(yè)的,我想看到的是巨大的商業(yè)價值。從這個角度來說,我們不會太糾結(jié)是不是能夠100%做到人類能做的事。如果世界上有一萬件事情,AI在9000件上做得比人好,有1000件人做得比較好,這樣也挺好的,要給人留一點空間。
張亞勤:我剛才講的20年實現(xiàn)AGI,不包括擁有意識或情感。我對AGI的定義有三點,第一是要有巨大的能力,要能在大部分的任務(wù)要比人類強,而不是所有任務(wù)均超越人類。第二,它是必須要是通用的,過去每個任務(wù)都要用不同的模型,但是AGI是要有一個通用的大底座,當(dāng)然可以有小的垂直模型,但它本身具有通用性。第三是不斷升級、學(xué)習(xí)、進化,就像人類一樣。我不認為現(xiàn)在的Scaling Law,或者我們現(xiàn)在做的研究會讓AI產(chǎn)生意識,并且我也不認為我們應(yīng)該從事這方面的研究。我們還是要解決真正的問題,把人工智能作為我們的工具、我們的延伸、我們的Agent,而不是另外一種物種。
黃鐵軍:超越人類的、有自我意識的AGI出來之后,人類會面臨著失控的巨大風(fēng)險嗎?
李開復(fù):存在,但概率不會很高。如果我們越來越依賴Reward model完全讓AI自己找路徑的話,發(fā)生的概率或許會增高。
當(dāng)前大模型的訓(xùn)練方法還不至于讓大家擔(dān)憂過度。技術(shù)是中性的,每個科技時代有技術(shù)帶來的“電車難題”,最后人類都用了有效的方法解決了。所以,我對此是持謹慎樂觀的態(tài)度,短期最擔(dān)憂是壞人用它去做壞事。中長期看,我仍然建議嘗試用“以子之矛攻子之盾”——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn),讓“AI for Good”,真正造福全人類。
張亞勤:隨著AI的能力不斷擴大,風(fēng)險也在不斷擴大,考慮未來的風(fēng)險很重要。我不擔(dān)心所謂的AGI會出現(xiàn)意識,會掌控人類。
如果現(xiàn)在不重視AI的治理,當(dāng)AGI達到一定的能力并被大規(guī)模部署,那么可能會有失控風(fēng)險。目前AI仍存在可解釋性問題,未來機器人數(shù)量可能會比人多,當(dāng)大模型被用到基礎(chǔ)物理設(shè)施、金融系統(tǒng),包括國家安全,軍事系統(tǒng)等方面,就可能會有失控的風(fēng)險。
我主張現(xiàn)在就要開始重視AI治理,但我對技術(shù)發(fā)永遠持樂觀態(tài)度,人類有兩種智慧,一種是發(fā)明技術(shù)的智慧,一種是引導(dǎo)技術(shù)走向的智慧。我們會達到平衡,但前提是現(xiàn)在要采取行動。