正在閱讀:

大模型的“三重門”,AI的盡頭是什么?

掃一掃下載界面新聞APP

大模型的“三重門”,AI的盡頭是什么?

AI將重新認(rèn)識(shí)世界。

文|極智GeeTech  

我們通向AGI的巔峰之旅,恐非一點(diǎn)之極,而似層巒疊嶂、地形錯(cuò)綜的高原。

1956年夏天,新罕布什爾州達(dá)特茅斯學(xué)院迎來了一場特殊的學(xué)術(shù)聚會(huì)。當(dāng)數(shù)學(xué)教授約翰·麥卡錫在會(huì)議提案中首次寫下“Artificial Intelligence”這個(gè)術(shù)語時(shí),或許未曾料到,這場原本計(jì)劃用兩個(gè)月時(shí)間“徹底解決機(jī)器模擬智能問題”的討論,竟開啟了一場跨越世紀(jì)的認(rèn)知革命。

阿里巴巴集團(tuán)CEO吳泳銘在財(cái)報(bào)會(huì)議上語氣鏗鏘,仿佛預(yù)見到歷史轉(zhuǎn)折的關(guān)鍵瞬間:“一旦AGI真正實(shí)現(xiàn),其所催生的產(chǎn)業(yè)規(guī)模,極有可能問鼎全球之首,甚至有可能深刻地影響、乃至部分取代當(dāng)下全球經(jīng)濟(jì)構(gòu)成中近半壁江山的產(chǎn)業(yè)形態(tài)?!?/p>

在驚喜與擔(dān)憂之間,人們正學(xué)著接納和擁抱人工智能,惴惴不安地揣測著通用人工智能(AGI)何時(shí)到來。然而,作為掀起本輪AI熱潮的主角,大語言模型或許還只是一個(gè)探路者,離真正的AGI仍相距甚遠(yuǎn),甚至根本不是通達(dá)AGI的正途。對(duì)此,人們不免心生疑問,我們離實(shí)現(xiàn)真正的AGI還有多遠(yuǎn)?

誰是AGI的起點(diǎn)?

“通用人工智能(Artificial General Intelligence)”一詞最初出現(xiàn)在北卡羅萊納大學(xué)物理學(xué)家Mark Gubrud于1997年發(fā)表的一篇有關(guān)軍事技術(shù)的文章中,其中將AGI定義為“在復(fù)雜性和速度上與人腦相媲美或超越的AI系統(tǒng),可以獲取一般性知識(shí),并以其為基礎(chǔ)進(jìn)行操作和推理,可以在任何工業(yè)或軍事活動(dòng)中發(fā)揮人類智力的作用?!?/p>

一直以來,AGI被視為人工智能領(lǐng)域的“圣杯”,它意味著機(jī)器能夠像人類一樣,在多種任務(wù)中自主學(xué)習(xí)、推理并適應(yīng)復(fù)雜環(huán)境。從GPT-4的對(duì)話能力到Sora的視頻生成,盡管近年來AI技術(shù)突飛猛進(jìn),但AGI的實(shí)現(xiàn)仍面臨多重鴻溝。

AI的核心就是把現(xiàn)實(shí)世界的現(xiàn)象翻譯成為數(shù)學(xué)模型,通過語言讓機(jī)器充分理解現(xiàn)實(shí)世界和數(shù)據(jù)的關(guān)系。而AGI更進(jìn)一步,讓AI不再局限于單一任務(wù),而是具備跨領(lǐng)域?qū)W習(xí)和遷移能力,因此具有更強(qiáng)的通用性。

如果比較AGI的特征,就會(huì)發(fā)現(xiàn)當(dāng)前AI系統(tǒng)雖然在特定任務(wù)上超越人類(如文本生成、圖像識(shí)別),但本質(zhì)上仍是“高級(jí)模仿”,缺乏對(duì)物理世界的感知和自主決策能力,依然不符合AGI的要求。

首先,大模型在處理任務(wù)方面的能力有限,它們只能處理文本領(lǐng)域的任務(wù),無法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng)。這意味著像ChatGPT、DeepSeek這樣的模型不能真正“理解”語言的含義,因?yàn)樗鼈儧]有身體來體驗(yàn)物理空間。

其次,大模型也不是自主的,它們需要人類來具體定義好每一個(gè)任務(wù),就像一只“鸚鵡”,只能模仿被訓(xùn)練過的話語。真正自主的智能應(yīng)該類似于“烏鴉智能”,能夠自主完成比現(xiàn)如今AI更加智能的任務(wù),當(dāng)下的AI系統(tǒng)還不具備這種潛能。

第三,雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進(jìn)行了大規(guī)模訓(xùn)練,包括隱含人類價(jià)值觀的文本,但它并不具備理解人類價(jià)值或與人類價(jià)值保持一致的能力,即缺乏所謂的道德指南針。

但這些并不妨礙科技巨頭對(duì)于大模型的推崇。OpenAI、谷歌在內(nèi)的科技巨頭,都將大模型視為邁向AGI的關(guān)鍵一步。OpenAI CEO薩姆·奧特曼(Sam Altman)就曾多次表示,GPT模型是朝著AGI方向發(fā)展的重要突破。

根據(jù)OpenAI提出的AGI五級(jí)標(biāo)準(zhǔn):L1是聊天機(jī)器人(Chatbots),具備基本的會(huì)話語言能力;L2是推理者(Reasoners),能夠解決人類級(jí)別的問題,處理更復(fù)雜的邏輯推理、問題解決和決策制定任務(wù);L3是智能主體(Agents),能夠代表用戶采取行動(dòng),具備更高的自主性和決策能力;L4是創(chuàng)新者(Innovators),能夠助力發(fā)明和創(chuàng)新,推動(dòng)科技進(jìn)步和社會(huì)發(fā)展;L5是組織者(Organizations),能夠執(zhí)行復(fù)雜的組織任務(wù),具備全面管理和協(xié)調(diào)多個(gè)系統(tǒng)和資源的能力。

當(dāng)前,AI技術(shù)正從L2“推理者”向L3“智能體”階段躍遷,而2025年成為Agent(智能體)應(yīng)用爆發(fā)之年是業(yè)內(nèi)共識(shí),我們已經(jīng)看到像ChatGPT、DeepSeek、Sora這類應(yīng)用開始進(jìn)入普及階段,融入人們的工作生活。

但通往AGI的道路仍布滿認(rèn)知陷阱,大模型偶爾出現(xiàn)的“幻覺輸出”,暴露出當(dāng)前系統(tǒng)對(duì)因果關(guān)系的理解局限;自動(dòng)駕駛汽車面對(duì)極端場景的決策困境,折射出現(xiàn)實(shí)世界的復(fù)雜性與倫理悖論。

就像人類智能進(jìn)化塑造的是多層架構(gòu),既有本能層面的快速反應(yīng),也有皮層控制的深度思考。要讓機(jī)器真正理解蘋果落地背后的萬有引力,不僅需要數(shù)據(jù)關(guān)聯(lián),更需要建立物理世界的心智模型。這種根本性的認(rèn)知鴻溝,可能比我們想象中更難跨越。

通向AGI的必經(jīng)之路

大模型的演進(jìn)將會(huì)經(jīng)歷三個(gè)階段:單模態(tài)→多模態(tài)→世界模型。

早期階段是語言、視覺、聲音各個(gè)模態(tài)獨(dú)立發(fā)展,當(dāng)前階段是多模融合階段,比如GPT-4V可以理解輸入的文字與圖像,Sora可以根據(jù)輸入的文字、圖像與視頻生成視頻。

但現(xiàn)階段的多模態(tài)融合還不徹底,“理解”與“生成”兩個(gè)任務(wù)是分開進(jìn)行的,造成的結(jié)果是GPT-4V理解能力強(qiáng)但生成能力弱,Sora生成能力強(qiáng)但理解能力有時(shí)候很差。多模態(tài)理解與生成的統(tǒng)一是走向AGI的必經(jīng)之路,這是一個(gè)非常關(guān)鍵的認(rèn)知。

無論通過哪種路徑實(shí)現(xiàn)AGI,多模態(tài)模型都是不可或缺的一部分。人與現(xiàn)實(shí)世界的交互涉及多種模態(tài)信息,因此,AI必須處理和理解多種形式的數(shù)據(jù),這意味著其必須具備多模態(tài)理解能力。

多模態(tài)模型能夠處理和理解不同模態(tài)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,如圖像、文本、音頻和視頻,能夠提供比單一模態(tài)更全面、更豐富的信息表達(dá)。此外,模擬動(dòng)態(tài)環(huán)境變化并做出預(yù)測和決策,也需要強(qiáng)大的多模態(tài)生成能力。

不同模態(tài)的數(shù)據(jù)往往包含互補(bǔ)的信息,多模態(tài)學(xué)習(xí)能夠有效地融合這些互補(bǔ)信息,提高模型的準(zhǔn)確性和魯棒性。例如,在圖像標(biāo)注任務(wù)中,文本信息可以幫助模型更好地理解圖像內(nèi)容;而在語音識(shí)別中,視頻信息有助于模型捕捉說話者的唇動(dòng),從而提高識(shí)別準(zhǔn)確率。

通過學(xué)習(xí)和融合多種模態(tài)的數(shù)據(jù),模型能夠建立更加泛化的特征表示,從而在面對(duì)未見過的、復(fù)雜的數(shù)據(jù)時(shí)表現(xiàn)出更好的適應(yīng)性和泛化能力。這對(duì)于開發(fā)通用智能系統(tǒng)和提高模型在現(xiàn)實(shí)世界應(yīng)用中的可靠性具有重要意義。

多模態(tài)模型的研究大致可以分為幾種技術(shù)途徑:對(duì)齊、融合、自監(jiān)督和噪聲添加?;趯?duì)齊的方法將不同模態(tài)的數(shù)據(jù)映射到一個(gè)共同的特征空間進(jìn)行統(tǒng)一處理。融合方法將多模態(tài)數(shù)據(jù)整合到不同的模型層中,充分利用每個(gè)模態(tài)的信息。自監(jiān)督技術(shù)在未標(biāo)記的數(shù)據(jù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練,從而提高各種任務(wù)的性能。噪聲添加通過在數(shù)據(jù)中引入噪聲來增強(qiáng)模型的魯棒性和泛化能力。

結(jié)合這些技術(shù),多模態(tài)模型在處理復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)方面表現(xiàn)出強(qiáng)大的能力。它們可以理解和生成多模態(tài)數(shù)據(jù),模擬和預(yù)測環(huán)境變化,并幫助智體做出更精確和有效的決策。因此,多模態(tài)模型在發(fā)展世界模型中起著至關(guān)重要的作用,標(biāo)志著邁向AGI的關(guān)鍵一步。

比如微軟近日開源了多模態(tài)模型Magma,不僅具備跨數(shù)字、物理世界的多模態(tài)能力,能自動(dòng)處理圖像、視頻、文本等不同類型數(shù)據(jù),還能夠推測視頻中人物或物體的意圖和未來行為。

階躍星辰兩款Step系列多模態(tài)大模型Step-Video-T2V、Step-Audio已與吉利汽車星睿AI大模型完成了深度融合,推動(dòng)AI技術(shù)在智能座艙、高階智駕等領(lǐng)域的普及應(yīng)用。

蘑菇車聯(lián)深度整合物理世界實(shí)時(shí)數(shù)據(jù)的AI大模型MogoMind,具備多模態(tài)理解、時(shí)空推理與自適應(yīng)進(jìn)化三項(xiàng)能力,不僅能夠處理文本、圖像等數(shù)字世界數(shù)據(jù),還能通過城市基礎(chǔ)設(shè)施(如攝像頭、傳感器)、車路云系統(tǒng)以及智能體(如自動(dòng)駕駛車輛)實(shí)現(xiàn)對(duì)物理世界的實(shí)時(shí)感知、認(rèn)知和決策反饋,突破了傳統(tǒng)模型依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)訓(xùn)練、無法反映物理世界實(shí)時(shí)狀態(tài)的局限。同時(shí),該大模型還重構(gòu)視頻分析范式,使普通攝像頭具備行為預(yù)測、事件溯源等高級(jí)認(rèn)知能力,為城市和交通管理者提供流量分析、事故預(yù)警、信號(hào)優(yōu)化等服務(wù)。

不過,多模態(tài)在發(fā)展過程中,還需要面臨數(shù)據(jù)獲取和處理的挑戰(zhàn)、模型設(shè)計(jì)和訓(xùn)練的復(fù)雜性,以及模態(tài)不一致和不平衡的問題。

多模態(tài)學(xué)習(xí)需要收集和處理來自不同源的數(shù)據(jù),不同模態(tài)的數(shù)據(jù)可能有著不同的分辨率、格式和質(zhì)量,需要復(fù)雜的預(yù)處理步驟來確保數(shù)據(jù)的一致性和可用性。此外,獲取高質(zhì)量、標(biāo)注精確的多模態(tài)數(shù)據(jù)往往成本高昂。

其次,設(shè)計(jì)能夠有效處理和融合多種模態(tài)數(shù)據(jù)的深度學(xué)習(xí)模型比單模態(tài)模型更加復(fù)雜。需要考慮如何設(shè)計(jì)合適的融合機(jī)制、如何平衡不同模態(tài)的信息貢獻(xiàn)、以及如何避免模態(tài)間的信息沖突等問題。同時(shí),多模態(tài)模型的訓(xùn)練過程也更為復(fù)雜和計(jì)算密集,需要更多的計(jì)算資源和調(diào)優(yōu)工作。

在多模態(tài)學(xué)習(xí)中,不同模態(tài)之間還可能存在顯著的不一致性和不平衡性,如某些模態(tài)的數(shù)據(jù)可能更豐富或更可靠,而其他模態(tài)的數(shù)據(jù)則可能稀疏或含噪聲。處理這種不一致和不平衡,確保模型能夠公平、有效地利用各模態(tài)的信息,也是多模態(tài)學(xué)習(xí)中的一個(gè)重要挑戰(zhàn)。

當(dāng)前,大語言模型、多模態(tài)大模型對(duì)人類思維過程的模擬還存在天然的局限性。從訓(xùn)練之初就打通多模態(tài)數(shù)據(jù),實(shí)現(xiàn)端到端輸入和輸出的原生多模態(tài)技術(shù)路線給出了多模態(tài)發(fā)展的新可能?;诖?,訓(xùn)練階段即對(duì)齊視覺、音頻、3D等模態(tài)的數(shù)據(jù)實(shí)現(xiàn)多模態(tài)統(tǒng)一,構(gòu)建原生多模態(tài)大模型,成為多模態(tài)大模型進(jìn)化的重要方向。

將AI拉回現(xiàn)實(shí)世界

Meta人工智能首席科學(xué)家楊立昆(Yann LeCun)認(rèn)為,目前的大模型路線無法通往AGI?,F(xiàn)有的大模型盡管在自然語言處理、對(duì)話交互、文本創(chuàng)作等領(lǐng)域表現(xiàn)出色,但其仍只是一種“統(tǒng)計(jì)建?!奔夹g(shù),通過學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律來完成相關(guān)任務(wù),本質(zhì)上并非具備真正的“理解”和“推理”能力。

他認(rèn)為,“世界模型”更接近真正的智能,而非只學(xué)習(xí)數(shù)據(jù)的統(tǒng)計(jì)特征。以人類的學(xué)習(xí)過程為例,孩童在成長過程中,更多是通過觀察、交互和實(shí)踐來認(rèn)知這個(gè)世界,而非被單純“注入”知識(shí)。

例如,第一次開車的人在過彎道的時(shí)候會(huì)自然地“知道”提前減速;兒童只需要學(xué)會(huì)一小部分(母語)語言,就掌握了幾乎這門語言的全部;動(dòng)物不會(huì)物理學(xué),但會(huì)下意識(shí)地躲避高處滾落的石塊。

世界模型之所以引起廣泛關(guān)注,原因在于其直接面對(duì)了一個(gè)根本性的難題:如何讓AI真正理解和認(rèn)識(shí)世界。它正試圖通過對(duì)視頻、音頻等媒體的模擬與補(bǔ)全,讓AI也經(jīng)歷這樣一個(gè)自主學(xué)習(xí)的過程,從而形成“常識(shí)”,并最終實(shí)現(xiàn)AGI。

世界模型和多模態(tài)大模型主要有兩方面不同之處,一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息,相比于多模態(tài)大模型,其輸入的數(shù)據(jù)形式以實(shí)時(shí)感知的外部環(huán)境為主,而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。

另一方面,世界模型輸出的結(jié)果,更多的是時(shí)間序列數(shù)據(jù)(TSD),并通過這個(gè)數(shù)據(jù)可以直接控制機(jī)器人。同時(shí)物理智能需要與現(xiàn)實(shí)世界進(jìn)行實(shí)時(shí)、高頻交互,其對(duì)時(shí)效性要求較高,而多模態(tài)大模型更多是與人交互,輸出的是過往一段時(shí)間的靜態(tài)沉淀信息,對(duì)時(shí)效性要求較低。

也正因此,世界模型也被行業(yè)人士看作是實(shí)現(xiàn)AGI的一道曙光。

世界模型的發(fā)展雖然取得了顯著進(jìn)展,但仍面臨多方面的挑戰(zhàn)。挑戰(zhàn)之一是在模擬環(huán)境動(dòng)態(tài)及因果關(guān)系方面的能力,以及進(jìn)行反事實(shí)推理的能力。反事實(shí)推理要求模型能夠模擬如果環(huán)境中的某些因素發(fā)生變化,結(jié)果會(huì)如何不同,這對(duì)于決策支持和復(fù)雜系統(tǒng)模擬至關(guān)重要。

例如,在自動(dòng)駕駛中,模型需要能夠預(yù)測如果某個(gè)交通參與者的行為發(fā)生變化,車輛的行駛路徑會(huì)受到怎樣的影響。然而,當(dāng)前的世界模型在這一領(lǐng)域的能力有限,未來需要探索如何讓世界模型不僅反映現(xiàn)實(shí)狀態(tài),還能根據(jù)假設(shè)的變化做出合理的推斷。

物理規(guī)則的模擬能力是世界模型面臨的另一大挑戰(zhàn),尤其是如何讓模型更加精確地模擬現(xiàn)實(shí)世界中的物理規(guī)律。盡管現(xiàn)有的視頻生成模型如Sora可以模擬一定程度的物理現(xiàn)象(如物體運(yùn)動(dòng)、光反射等),但在一些復(fù)雜的物理現(xiàn)象(如流體動(dòng)力學(xué)、空氣動(dòng)力學(xué)等)中,模型的準(zhǔn)確性和一致性仍然不足。

為了克服這一挑戰(zhàn),研究人員需要在模擬物理規(guī)律時(shí),考慮更精確的物理引擎與計(jì)算模型,確保生成的場景能夠更好地遵循真實(shí)世界中的物理定律。

評(píng)估世界模型性能的關(guān)鍵標(biāo)準(zhǔn)之一是泛化能力,其強(qiáng)調(diào)的不僅是數(shù)據(jù)內(nèi)插,更重要的是數(shù)據(jù)外推。例如,真實(shí)的交通事故或異常的駕駛行為是罕見事件。那么,學(xué)習(xí)得到的世界模型能否想象這些罕見的駕駛事件,這要求模型不僅要超越簡單地記憶訓(xùn)練數(shù)據(jù),而且要發(fā)展出對(duì)駕駛原理的深刻理解。通過從已知數(shù)據(jù)進(jìn)行外推,并模擬各種潛在情況,使其可以更好地應(yīng)用于現(xiàn)實(shí)世界之中。

對(duì)于AI而言,讓機(jī)器人親自擰開瓶蓋獲取的數(shù)據(jù),比觀看百萬次操作視頻更能建立物理直覺。通過在模型訓(xùn)練過程中加入更多真實(shí)場景的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),可以讓AI更好理解三維世界的空間關(guān)系、運(yùn)動(dòng)行為、物理規(guī)律,從而實(shí)現(xiàn)對(duì)物理世界的洞察和理解。最終,AGI的到來可能不像奇點(diǎn)理論預(yù)言的那般石破天驚,而會(huì)像晨霧中的群山,在數(shù)據(jù)洪流的沖刷下漸次顯形。

AI的盡頭并非一個(gè)固定終點(diǎn),而是人類與技術(shù)共同書寫的未來敘事。它可能是工具、伙伴、威脅,或是超越想象的形態(tài)。關(guān)鍵問題或許不是“AI的盡頭是什么”,而是“人類希望以何種價(jià)值觀引導(dǎo)AI的發(fā)展”。正如斯蒂芬·霍金所警示:“AI的崛起可能是人類最好或最糟的事件?!贝鸢溉Q于我們今天的決策與責(zé)任,屆時(shí)AI將重新認(rèn)識(shí)世界,并完成對(duì)未來人機(jī)交互方式的重新想象。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大模型的“三重門”,AI的盡頭是什么?

AI將重新認(rèn)識(shí)世界。

文|極智GeeTech  

我們通向AGI的巔峰之旅,恐非一點(diǎn)之極,而似層巒疊嶂、地形錯(cuò)綜的高原。

1956年夏天,新罕布什爾州達(dá)特茅斯學(xué)院迎來了一場特殊的學(xué)術(shù)聚會(huì)。當(dāng)數(shù)學(xué)教授約翰·麥卡錫在會(huì)議提案中首次寫下“Artificial Intelligence”這個(gè)術(shù)語時(shí),或許未曾料到,這場原本計(jì)劃用兩個(gè)月時(shí)間“徹底解決機(jī)器模擬智能問題”的討論,竟開啟了一場跨越世紀(jì)的認(rèn)知革命。

阿里巴巴集團(tuán)CEO吳泳銘在財(cái)報(bào)會(huì)議上語氣鏗鏘,仿佛預(yù)見到歷史轉(zhuǎn)折的關(guān)鍵瞬間:“一旦AGI真正實(shí)現(xiàn),其所催生的產(chǎn)業(yè)規(guī)模,極有可能問鼎全球之首,甚至有可能深刻地影響、乃至部分取代當(dāng)下全球經(jīng)濟(jì)構(gòu)成中近半壁江山的產(chǎn)業(yè)形態(tài)?!?/p>

在驚喜與擔(dān)憂之間,人們正學(xué)著接納和擁抱人工智能,惴惴不安地揣測著通用人工智能(AGI)何時(shí)到來。然而,作為掀起本輪AI熱潮的主角,大語言模型或許還只是一個(gè)探路者,離真正的AGI仍相距甚遠(yuǎn),甚至根本不是通達(dá)AGI的正途。對(duì)此,人們不免心生疑問,我們離實(shí)現(xiàn)真正的AGI還有多遠(yuǎn)?

誰是AGI的起點(diǎn)?

“通用人工智能(Artificial General Intelligence)”一詞最初出現(xiàn)在北卡羅萊納大學(xué)物理學(xué)家Mark Gubrud于1997年發(fā)表的一篇有關(guān)軍事技術(shù)的文章中,其中將AGI定義為“在復(fù)雜性和速度上與人腦相媲美或超越的AI系統(tǒng),可以獲取一般性知識(shí),并以其為基礎(chǔ)進(jìn)行操作和推理,可以在任何工業(yè)或軍事活動(dòng)中發(fā)揮人類智力的作用?!?/p>

一直以來,AGI被視為人工智能領(lǐng)域的“圣杯”,它意味著機(jī)器能夠像人類一樣,在多種任務(wù)中自主學(xué)習(xí)、推理并適應(yīng)復(fù)雜環(huán)境。從GPT-4的對(duì)話能力到Sora的視頻生成,盡管近年來AI技術(shù)突飛猛進(jìn),但AGI的實(shí)現(xiàn)仍面臨多重鴻溝。

AI的核心就是把現(xiàn)實(shí)世界的現(xiàn)象翻譯成為數(shù)學(xué)模型,通過語言讓機(jī)器充分理解現(xiàn)實(shí)世界和數(shù)據(jù)的關(guān)系。而AGI更進(jìn)一步,讓AI不再局限于單一任務(wù),而是具備跨領(lǐng)域?qū)W習(xí)和遷移能力,因此具有更強(qiáng)的通用性。

如果比較AGI的特征,就會(huì)發(fā)現(xiàn)當(dāng)前AI系統(tǒng)雖然在特定任務(wù)上超越人類(如文本生成、圖像識(shí)別),但本質(zhì)上仍是“高級(jí)模仿”,缺乏對(duì)物理世界的感知和自主決策能力,依然不符合AGI的要求。

首先,大模型在處理任務(wù)方面的能力有限,它們只能處理文本領(lǐng)域的任務(wù),無法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng)。這意味著像ChatGPT、DeepSeek這樣的模型不能真正“理解”語言的含義,因?yàn)樗鼈儧]有身體來體驗(yàn)物理空間。

其次,大模型也不是自主的,它們需要人類來具體定義好每一個(gè)任務(wù),就像一只“鸚鵡”,只能模仿被訓(xùn)練過的話語。真正自主的智能應(yīng)該類似于“烏鴉智能”,能夠自主完成比現(xiàn)如今AI更加智能的任務(wù),當(dāng)下的AI系統(tǒng)還不具備這種潛能。

第三,雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進(jìn)行了大規(guī)模訓(xùn)練,包括隱含人類價(jià)值觀的文本,但它并不具備理解人類價(jià)值或與人類價(jià)值保持一致的能力,即缺乏所謂的道德指南針。

但這些并不妨礙科技巨頭對(duì)于大模型的推崇。OpenAI、谷歌在內(nèi)的科技巨頭,都將大模型視為邁向AGI的關(guān)鍵一步。OpenAI CEO薩姆·奧特曼(Sam Altman)就曾多次表示,GPT模型是朝著AGI方向發(fā)展的重要突破。

根據(jù)OpenAI提出的AGI五級(jí)標(biāo)準(zhǔn):L1是聊天機(jī)器人(Chatbots),具備基本的會(huì)話語言能力;L2是推理者(Reasoners),能夠解決人類級(jí)別的問題,處理更復(fù)雜的邏輯推理、問題解決和決策制定任務(wù);L3是智能主體(Agents),能夠代表用戶采取行動(dòng),具備更高的自主性和決策能力;L4是創(chuàng)新者(Innovators),能夠助力發(fā)明和創(chuàng)新,推動(dòng)科技進(jìn)步和社會(huì)發(fā)展;L5是組織者(Organizations),能夠執(zhí)行復(fù)雜的組織任務(wù),具備全面管理和協(xié)調(diào)多個(gè)系統(tǒng)和資源的能力。

當(dāng)前,AI技術(shù)正從L2“推理者”向L3“智能體”階段躍遷,而2025年成為Agent(智能體)應(yīng)用爆發(fā)之年是業(yè)內(nèi)共識(shí),我們已經(jīng)看到像ChatGPT、DeepSeek、Sora這類應(yīng)用開始進(jìn)入普及階段,融入人們的工作生活。

但通往AGI的道路仍布滿認(rèn)知陷阱,大模型偶爾出現(xiàn)的“幻覺輸出”,暴露出當(dāng)前系統(tǒng)對(duì)因果關(guān)系的理解局限;自動(dòng)駕駛汽車面對(duì)極端場景的決策困境,折射出現(xiàn)實(shí)世界的復(fù)雜性與倫理悖論。

就像人類智能進(jìn)化塑造的是多層架構(gòu),既有本能層面的快速反應(yīng),也有皮層控制的深度思考。要讓機(jī)器真正理解蘋果落地背后的萬有引力,不僅需要數(shù)據(jù)關(guān)聯(lián),更需要建立物理世界的心智模型。這種根本性的認(rèn)知鴻溝,可能比我們想象中更難跨越。

通向AGI的必經(jīng)之路

大模型的演進(jìn)將會(huì)經(jīng)歷三個(gè)階段:單模態(tài)→多模態(tài)→世界模型。

早期階段是語言、視覺、聲音各個(gè)模態(tài)獨(dú)立發(fā)展,當(dāng)前階段是多模融合階段,比如GPT-4V可以理解輸入的文字與圖像,Sora可以根據(jù)輸入的文字、圖像與視頻生成視頻。

但現(xiàn)階段的多模態(tài)融合還不徹底,“理解”與“生成”兩個(gè)任務(wù)是分開進(jìn)行的,造成的結(jié)果是GPT-4V理解能力強(qiáng)但生成能力弱,Sora生成能力強(qiáng)但理解能力有時(shí)候很差。多模態(tài)理解與生成的統(tǒng)一是走向AGI的必經(jīng)之路,這是一個(gè)非常關(guān)鍵的認(rèn)知。

無論通過哪種路徑實(shí)現(xiàn)AGI,多模態(tài)模型都是不可或缺的一部分。人與現(xiàn)實(shí)世界的交互涉及多種模態(tài)信息,因此,AI必須處理和理解多種形式的數(shù)據(jù),這意味著其必須具備多模態(tài)理解能力。

多模態(tài)模型能夠處理和理解不同模態(tài)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,如圖像、文本、音頻和視頻,能夠提供比單一模態(tài)更全面、更豐富的信息表達(dá)。此外,模擬動(dòng)態(tài)環(huán)境變化并做出預(yù)測和決策,也需要強(qiáng)大的多模態(tài)生成能力。

不同模態(tài)的數(shù)據(jù)往往包含互補(bǔ)的信息,多模態(tài)學(xué)習(xí)能夠有效地融合這些互補(bǔ)信息,提高模型的準(zhǔn)確性和魯棒性。例如,在圖像標(biāo)注任務(wù)中,文本信息可以幫助模型更好地理解圖像內(nèi)容;而在語音識(shí)別中,視頻信息有助于模型捕捉說話者的唇動(dòng),從而提高識(shí)別準(zhǔn)確率。

通過學(xué)習(xí)和融合多種模態(tài)的數(shù)據(jù),模型能夠建立更加泛化的特征表示,從而在面對(duì)未見過的、復(fù)雜的數(shù)據(jù)時(shí)表現(xiàn)出更好的適應(yīng)性和泛化能力。這對(duì)于開發(fā)通用智能系統(tǒng)和提高模型在現(xiàn)實(shí)世界應(yīng)用中的可靠性具有重要意義。

多模態(tài)模型的研究大致可以分為幾種技術(shù)途徑:對(duì)齊、融合、自監(jiān)督和噪聲添加?;趯?duì)齊的方法將不同模態(tài)的數(shù)據(jù)映射到一個(gè)共同的特征空間進(jìn)行統(tǒng)一處理。融合方法將多模態(tài)數(shù)據(jù)整合到不同的模型層中,充分利用每個(gè)模態(tài)的信息。自監(jiān)督技術(shù)在未標(biāo)記的數(shù)據(jù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練,從而提高各種任務(wù)的性能。噪聲添加通過在數(shù)據(jù)中引入噪聲來增強(qiáng)模型的魯棒性和泛化能力。

結(jié)合這些技術(shù),多模態(tài)模型在處理復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)方面表現(xiàn)出強(qiáng)大的能力。它們可以理解和生成多模態(tài)數(shù)據(jù),模擬和預(yù)測環(huán)境變化,并幫助智體做出更精確和有效的決策。因此,多模態(tài)模型在發(fā)展世界模型中起著至關(guān)重要的作用,標(biāo)志著邁向AGI的關(guān)鍵一步。

比如微軟近日開源了多模態(tài)模型Magma,不僅具備跨數(shù)字、物理世界的多模態(tài)能力,能自動(dòng)處理圖像、視頻、文本等不同類型數(shù)據(jù),還能夠推測視頻中人物或物體的意圖和未來行為。

階躍星辰兩款Step系列多模態(tài)大模型Step-Video-T2V、Step-Audio已與吉利汽車星睿AI大模型完成了深度融合,推動(dòng)AI技術(shù)在智能座艙、高階智駕等領(lǐng)域的普及應(yīng)用。

蘑菇車聯(lián)深度整合物理世界實(shí)時(shí)數(shù)據(jù)的AI大模型MogoMind,具備多模態(tài)理解、時(shí)空推理與自適應(yīng)進(jìn)化三項(xiàng)能力,不僅能夠處理文本、圖像等數(shù)字世界數(shù)據(jù),還能通過城市基礎(chǔ)設(shè)施(如攝像頭、傳感器)、車路云系統(tǒng)以及智能體(如自動(dòng)駕駛車輛)實(shí)現(xiàn)對(duì)物理世界的實(shí)時(shí)感知、認(rèn)知和決策反饋,突破了傳統(tǒng)模型依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)訓(xùn)練、無法反映物理世界實(shí)時(shí)狀態(tài)的局限。同時(shí),該大模型還重構(gòu)視頻分析范式,使普通攝像頭具備行為預(yù)測、事件溯源等高級(jí)認(rèn)知能力,為城市和交通管理者提供流量分析、事故預(yù)警、信號(hào)優(yōu)化等服務(wù)。

不過,多模態(tài)在發(fā)展過程中,還需要面臨數(shù)據(jù)獲取和處理的挑戰(zhàn)、模型設(shè)計(jì)和訓(xùn)練的復(fù)雜性,以及模態(tài)不一致和不平衡的問題。

多模態(tài)學(xué)習(xí)需要收集和處理來自不同源的數(shù)據(jù),不同模態(tài)的數(shù)據(jù)可能有著不同的分辨率、格式和質(zhì)量,需要復(fù)雜的預(yù)處理步驟來確保數(shù)據(jù)的一致性和可用性。此外,獲取高質(zhì)量、標(biāo)注精確的多模態(tài)數(shù)據(jù)往往成本高昂。

其次,設(shè)計(jì)能夠有效處理和融合多種模態(tài)數(shù)據(jù)的深度學(xué)習(xí)模型比單模態(tài)模型更加復(fù)雜。需要考慮如何設(shè)計(jì)合適的融合機(jī)制、如何平衡不同模態(tài)的信息貢獻(xiàn)、以及如何避免模態(tài)間的信息沖突等問題。同時(shí),多模態(tài)模型的訓(xùn)練過程也更為復(fù)雜和計(jì)算密集,需要更多的計(jì)算資源和調(diào)優(yōu)工作。

在多模態(tài)學(xué)習(xí)中,不同模態(tài)之間還可能存在顯著的不一致性和不平衡性,如某些模態(tài)的數(shù)據(jù)可能更豐富或更可靠,而其他模態(tài)的數(shù)據(jù)則可能稀疏或含噪聲。處理這種不一致和不平衡,確保模型能夠公平、有效地利用各模態(tài)的信息,也是多模態(tài)學(xué)習(xí)中的一個(gè)重要挑戰(zhàn)。

當(dāng)前,大語言模型、多模態(tài)大模型對(duì)人類思維過程的模擬還存在天然的局限性。從訓(xùn)練之初就打通多模態(tài)數(shù)據(jù),實(shí)現(xiàn)端到端輸入和輸出的原生多模態(tài)技術(shù)路線給出了多模態(tài)發(fā)展的新可能。基于此,訓(xùn)練階段即對(duì)齊視覺、音頻、3D等模態(tài)的數(shù)據(jù)實(shí)現(xiàn)多模態(tài)統(tǒng)一,構(gòu)建原生多模態(tài)大模型,成為多模態(tài)大模型進(jìn)化的重要方向。

將AI拉回現(xiàn)實(shí)世界

Meta人工智能首席科學(xué)家楊立昆(Yann LeCun)認(rèn)為,目前的大模型路線無法通往AGI?,F(xiàn)有的大模型盡管在自然語言處理、對(duì)話交互、文本創(chuàng)作等領(lǐng)域表現(xiàn)出色,但其仍只是一種“統(tǒng)計(jì)建模”技術(shù),通過學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律來完成相關(guān)任務(wù),本質(zhì)上并非具備真正的“理解”和“推理”能力。

他認(rèn)為,“世界模型”更接近真正的智能,而非只學(xué)習(xí)數(shù)據(jù)的統(tǒng)計(jì)特征。以人類的學(xué)習(xí)過程為例,孩童在成長過程中,更多是通過觀察、交互和實(shí)踐來認(rèn)知這個(gè)世界,而非被單純“注入”知識(shí)。

例如,第一次開車的人在過彎道的時(shí)候會(huì)自然地“知道”提前減速;兒童只需要學(xué)會(huì)一小部分(母語)語言,就掌握了幾乎這門語言的全部;動(dòng)物不會(huì)物理學(xué),但會(huì)下意識(shí)地躲避高處滾落的石塊。

世界模型之所以引起廣泛關(guān)注,原因在于其直接面對(duì)了一個(gè)根本性的難題:如何讓AI真正理解和認(rèn)識(shí)世界。它正試圖通過對(duì)視頻、音頻等媒體的模擬與補(bǔ)全,讓AI也經(jīng)歷這樣一個(gè)自主學(xué)習(xí)的過程,從而形成“常識(shí)”,并最終實(shí)現(xiàn)AGI。

世界模型和多模態(tài)大模型主要有兩方面不同之處,一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息,相比于多模態(tài)大模型,其輸入的數(shù)據(jù)形式以實(shí)時(shí)感知的外部環(huán)境為主,而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。

另一方面,世界模型輸出的結(jié)果,更多的是時(shí)間序列數(shù)據(jù)(TSD),并通過這個(gè)數(shù)據(jù)可以直接控制機(jī)器人。同時(shí)物理智能需要與現(xiàn)實(shí)世界進(jìn)行實(shí)時(shí)、高頻交互,其對(duì)時(shí)效性要求較高,而多模態(tài)大模型更多是與人交互,輸出的是過往一段時(shí)間的靜態(tài)沉淀信息,對(duì)時(shí)效性要求較低。

也正因此,世界模型也被行業(yè)人士看作是實(shí)現(xiàn)AGI的一道曙光。

世界模型的發(fā)展雖然取得了顯著進(jìn)展,但仍面臨多方面的挑戰(zhàn)。挑戰(zhàn)之一是在模擬環(huán)境動(dòng)態(tài)及因果關(guān)系方面的能力,以及進(jìn)行反事實(shí)推理的能力。反事實(shí)推理要求模型能夠模擬如果環(huán)境中的某些因素發(fā)生變化,結(jié)果會(huì)如何不同,這對(duì)于決策支持和復(fù)雜系統(tǒng)模擬至關(guān)重要。

例如,在自動(dòng)駕駛中,模型需要能夠預(yù)測如果某個(gè)交通參與者的行為發(fā)生變化,車輛的行駛路徑會(huì)受到怎樣的影響。然而,當(dāng)前的世界模型在這一領(lǐng)域的能力有限,未來需要探索如何讓世界模型不僅反映現(xiàn)實(shí)狀態(tài),還能根據(jù)假設(shè)的變化做出合理的推斷。

物理規(guī)則的模擬能力是世界模型面臨的另一大挑戰(zhàn),尤其是如何讓模型更加精確地模擬現(xiàn)實(shí)世界中的物理規(guī)律。盡管現(xiàn)有的視頻生成模型如Sora可以模擬一定程度的物理現(xiàn)象(如物體運(yùn)動(dòng)、光反射等),但在一些復(fù)雜的物理現(xiàn)象(如流體動(dòng)力學(xué)、空氣動(dòng)力學(xué)等)中,模型的準(zhǔn)確性和一致性仍然不足。

為了克服這一挑戰(zhàn),研究人員需要在模擬物理規(guī)律時(shí),考慮更精確的物理引擎與計(jì)算模型,確保生成的場景能夠更好地遵循真實(shí)世界中的物理定律。

評(píng)估世界模型性能的關(guān)鍵標(biāo)準(zhǔn)之一是泛化能力,其強(qiáng)調(diào)的不僅是數(shù)據(jù)內(nèi)插,更重要的是數(shù)據(jù)外推。例如,真實(shí)的交通事故或異常的駕駛行為是罕見事件。那么,學(xué)習(xí)得到的世界模型能否想象這些罕見的駕駛事件,這要求模型不僅要超越簡單地記憶訓(xùn)練數(shù)據(jù),而且要發(fā)展出對(duì)駕駛原理的深刻理解。通過從已知數(shù)據(jù)進(jìn)行外推,并模擬各種潛在情況,使其可以更好地應(yīng)用于現(xiàn)實(shí)世界之中。

對(duì)于AI而言,讓機(jī)器人親自擰開瓶蓋獲取的數(shù)據(jù),比觀看百萬次操作視頻更能建立物理直覺。通過在模型訓(xùn)練過程中加入更多真實(shí)場景的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),可以讓AI更好理解三維世界的空間關(guān)系、運(yùn)動(dòng)行為、物理規(guī)律,從而實(shí)現(xiàn)對(duì)物理世界的洞察和理解。最終,AGI的到來可能不像奇點(diǎn)理論預(yù)言的那般石破天驚,而會(huì)像晨霧中的群山,在數(shù)據(jù)洪流的沖刷下漸次顯形。

AI的盡頭并非一個(gè)固定終點(diǎn),而是人類與技術(shù)共同書寫的未來敘事。它可能是工具、伙伴、威脅,或是超越想象的形態(tài)。關(guān)鍵問題或許不是“AI的盡頭是什么”,而是“人類希望以何種價(jià)值觀引導(dǎo)AI的發(fā)展”。正如斯蒂芬·霍金所警示:“AI的崛起可能是人類最好或最糟的事件?!贝鸢溉Q于我們今天的決策與責(zé)任,屆時(shí)AI將重新認(rèn)識(shí)世界,并完成對(duì)未來人機(jī)交互方式的重新想象。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。