文 | 極智GeeTech
世事的起伏本來是波浪式的,人們要是能夠趁著高潮一往直前,一定可以功成名就;要是不能把握時機,就要終身蹭蹬,一事無成?!勘葋?/em>
近期,德意志銀行發(fā)布了一份引起全球關注的報告,標題很刺眼——《China Eats the World》,直譯過來就是《中國正鯨吞世界》,聽起來像是危言聳聽,但內容確實分量感十足。
這份報告直指中國的迅猛崛起,稱中國如今不僅是全球制造業(yè)的中心,還在重重包圍中的高科技領域殺出了血路,甚至威脅到了西方的技術霸權。報告中還用了一個歷史比喻——“斯普特尼克時刻”。
“斯普特尼克時刻”是美國在冷戰(zhàn)期間提出的概念。美蘇冷戰(zhàn)時期的1957年,蘇聯(lián)領先美國,將第一顆人造衛(wèi)星“斯普特尼克1號”送入地球軌道。蘇聯(lián)這一科學技術領域的優(yōu)勢,給美國帶來巨大沖擊。
德意志銀行用了這個詞,形容中國如今的技術突破,尤其是在人工智能、制造業(yè)、新能源等領域的表現(xiàn),其認為2025年正成為中國超越世界其他國家的一年。以DeepSeek為開端,越來越多的事實已表明,中國科技企業(yè)正在以精益的工程化思維,完成另一種東方敘事。
AI精益思維與工程化能力
在《技術的本質》中,布萊恩·阿瑟(Brian Arthur)曾表示:新技術并不是無中生有地被“發(fā)明”出來的,我看到的技術的例子都是從先前已有的技術中被創(chuàng)造(被建構、被聚集、被集成)而來的。
2023年,一款名為Monica的AI助手以瀏覽器插件的形式在歐洲和拉美地區(qū)迅速走紅。這款集合了GPT-4、Claude、Bard、Gemini等主流模型于一體的智能應用,能夠讓用戶在瀏覽網(wǎng)頁的同時即時調用AI功能,從AI對話、翻譯到繪圖、寫作無所不包,特別是其語言模型支持22種語言,用戶可以通過語音輸入進行實時翻譯,驗證了“工具全家桶”模式的用戶需求。
3月6日,Monica.im發(fā)布全球首個通用AI Agent產(chǎn)品Manus,效果超越OpenAI的Deep Research。與現(xiàn)有AI助手不同,Manus能夠獨立思考、規(guī)劃并執(zhí)行復雜任務,直接交付完整成果,展現(xiàn)出較好的通用性和執(zhí)行能力。
Monica創(chuàng)始人肖弘在Manus發(fā)布的前幾個小時,在即刻平臺上發(fā)文“高潮來臨”:很難現(xiàn)在就判定Manus的誕生就是AGI的里程碑,但它很有可能將讓Agent時代真的進入“高潮時刻”。
從技術角度看,Manus本質上是基于基座大模型的系統(tǒng)性工程優(yōu)化,通過構建多智能體協(xié)作框架,將任務劃分為“規(guī)劃-執(zhí)行-驗證”三個階段,由不同AI代理接力協(xié)作,模擬人類處理復雜任務的流程。同時,針對不同應用場景設計了多層次環(huán)境適配機制,最終形成面向復雜任務的高度工程化整合方案。
在交互體驗方面,Manus的核心能力體現(xiàn)在對用戶需求的洞察,它最后交付的不僅僅是文字,而是借助代碼生成了各類契合任務需求的結果,涵蓋了文檔、網(wǎng)頁、圖標甚至是視頻。由此,用戶能夠更加直觀地獲取到自己想要的結果,還能在過程中對最終的交付結果進行驗證。
事實上,Manus并非在底層技術上有重大突破,而是通過工程化能力擠壓出了模型可以完成的最復雜任務。
首先,通過深度的后訓練(Post-Training)帶來令人驚艷的“魔法感”。后訓練,就是在預訓練模型的基礎上,通過針對特定任務的數(shù)據(jù)集和監(jiān)督信號,對模型進行微調,使其更好地適應下游任務。

后訓練過程通常包括微調、對齊和評估三個階段。
在微調階段,模型通過針對特定任務的數(shù)據(jù)集進行監(jiān)督學習,調整模型參數(shù)以適應任務需求。
在對齊階段,模型通過人類偏好數(shù)據(jù)等手段進行訓練,以使其輸出更符合人類價值觀和道德標準。
在評估階段,則需要對模型進行全面評估,確保其在實際應用中表現(xiàn)出良好的性能。
通過后訓練,模型能夠學習到更多與任務相關的知識,更好地理解人類意圖,生成更符合人類期望的回答,從而在實際應用中表現(xiàn)出更佳的性能。
其次,借助Monica在模型聚合領域的積累,構建了一個遠超單一模型調用的多模型協(xié)同網(wǎng)絡。最后,它將現(xiàn)有技術進行整合,展現(xiàn)出了較強的系統(tǒng)集成能力。
Manus通過預設工作流和標準化場景(如生成報告、翻譯合同、簡歷篩選),將語音、圖像、文本等多模態(tài)交互與行業(yè)工具鏈進行整合,并通過優(yōu)化工具調用順序和參數(shù)配置,全面提升工作效率和產(chǎn)出效果。
例如,在生成市場報告時,能自動調用數(shù)據(jù)分析工具和設計平臺完成全流程,形成“端到端”解決方案。這種工程化封裝能力使其在標準化任務中表現(xiàn)優(yōu)于通用大模型。
無論是DeepSeek還是Manus,都體現(xiàn)出了“Less is More”的技術理念。相比大模型,它們用更少的結構、更少的資源,調動更強的智能,強調通過優(yōu)質數(shù)據(jù)、強大模型和靈活架構實現(xiàn)能力的自然涌現(xiàn)。
這輪中國AI技術崛起,本質上是一場大規(guī)模系統(tǒng)級工程創(chuàng)新的勝利。它證明在既有技術框架下,通過工程優(yōu)化與路徑創(chuàng)新,完全可能實現(xiàn)局部超越。
Manus沒有追求自研大模型,而是通過多模型動態(tài)調用(GPT-4、Claude3、Gemini)提升綜合能力,也就是常說的“套殼”,這成為其最受爭議的焦點。
其實“套殼”本身并不可怕,可以視為一種整合和優(yōu)化資源的方式,關鍵在于是否能夠解決用戶的實際問題。用戶更在乎的是產(chǎn)品體驗,有沒有迅速且準確地獲得所需的內容,而不是底層用了什么,如何調用工具。
不過,互聯(lián)網(wǎng)時代的系統(tǒng)與應用“兩層思維”在AI時代已經(jīng)失效,模型和應用兩者的能力已經(jīng)相互融合不分彼此,模型即應用。
做AI應用最終還是在向用戶交付一項大模型能力,無論使用的是提示工程、強化學習、工作流、Agent,還是別的“套殼”手段,底層都還是那臺貫通一切的“大腦”。
比如OpenAI的Agent走的就完全是模型訓練的路徑。Deep Research突出特點便在于端到端訓練帶來的自主能力進化,基于微調的OpenAI o3版本,底層訓練賦予了Deep Research很多分析能力。
長期來看,在模型之上進行強化學習調整,可能才是構建強大Agent的關鍵。
至于Manus是否是個好產(chǎn)品,仍需等待市場的驗證。無論褒贊和爭議如何,Manus讓虛掩著的AI應用大門正慢慢敞開。
Agent離臨門一腳還差多遠?
人類與AI交互大致可分為三種模式:嵌入模式(Embedding)、副駕駛模式(Copilot)、智能體模式(Agent)。

嵌入模式下,AI大模型在特定環(huán)節(jié)被調用。用戶通過語言與AI互動,用提示詞設定目標,AI則協(xié)助完成。這種模式讓AI成為執(zhí)行命令的工具,而人類則是決策者和指揮者。普通用戶可以用它來創(chuàng)作小說、音樂、3D內容等。
副駕駛模式則更加智能化,人類與AI成為合作伙伴,每個環(huán)節(jié)都能與AI大模型交互。AI介入工作的各個階段,從提供建議到協(xié)助完成。
例如在軟件開發(fā)中,AI可以為程序員編寫代碼、檢測錯誤、優(yōu)化性能。人類與AI在此過程中相互協(xié)作,AI更像是知識淵博的伙伴,而非單純工具。
2021年,微軟在GitHub首次引入了Copilot概念。2023年5月,微軟在大模型加持下,Copilot迎來全面升級,并提出“Copilot是一種全新的工作方式”的理念。
智能體模式的AI參與度更高,任務被交給AI大模型,模型自行計劃、分解并自動執(zhí)行。人類設定目標并提供必要資源,如計算能力,然后AI獨立承擔大部分工作,最后人類監(jiān)督進程并評估最終結果。
在這種模式下,AI展現(xiàn)智能體的互動性、自主性和適應性特征,近乎獨立的行動者,而人類則更多扮演監(jiān)督者和評估者的角色。
談到AI Agent,很多人都認為它是大模型的產(chǎn)物,畢竟大部分人接觸Agent是從基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等開源Agent程序開始的。
但了解AI Agent的人應該知道,Agent概念并不是當今的產(chǎn)物,而是人工智能不斷進化的結果。
2023年6月,OpenAI應用研究主管Lilian Weng發(fā)表了《LLM Powered Autonomous Agents》一文,其中她提出了一個公式:智能體=大語言模型+規(guī)劃+記憶+工具使用。
其中,大模型是Agent的大腦, 屬于“中樞”模型,要求有以下3種能力:規(guī)劃——就如同一位棋手,能將復雜局面分解為一系列精妙的子步驟;工具使用——宛如工匠,懂得從工具箱中選取最合適的工具并熟練調用 ;記憶——既有短期記憶存儲即時信息,又有長期記憶沉淀持久知識 。

20世紀50年代,阿蘭?圖靈(Alan Turing)把“高度智能有機體”概念擴展到了人工實體,并提出了著名的圖靈測試。這個測試是人工智能的基石,旨在探索機器是否可以顯示與人類相當?shù)闹悄苄袨椤?/p>
在早期階段,研究人員開始探討如何讓計算機模擬人類的思維和學習過程。這個階段的Agent主要是基于規(guī)則的專家系統(tǒng),它們可以在特定領域內解決問題,但缺乏自主學習和適應能力。
隨著機器學習的出現(xiàn),Agent開始嘗試通過數(shù)據(jù)驅動的方式來學習和改進。主要依賴于監(jiān)督學習和無監(jiān)督學習算法,如決策樹、神經(jīng)網(wǎng)絡和聚類分析等。這些算法使得Agent能夠在大量數(shù)據(jù)中學習和提取有用的信息,從而提高性能。
深度學習技術為Agent的發(fā)展帶來了革命性的變革。深度學習算法,如卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN),使得Agent能夠在復雜的數(shù)據(jù)中自動學習特征和規(guī)律,從而實現(xiàn)更高層次的認知和決策能力。這個階段的Agent已經(jīng)在圖像識別、語音識別、自然語言處理等領域取得了顯著的成果。
強化學習是一種讓Agent通過與環(huán)境的交互來學習最優(yōu)策略的方法。近年來,強化學習在Agent領域取得了重要突破,使得Agent能夠在復雜的環(huán)境中實現(xiàn)自主學習和決策,為未來的Agent發(fā)展提供了新的可能性。
從以上發(fā)展歷程看,AI Agent經(jīng)歷了從基于規(guī)則的專家系統(tǒng),到數(shù)據(jù)驅動的機器學習方法,再到如今的深度學習和強化學習。
不少人認為,Agent爆發(fā)需要兩個必要條件,一個是多模態(tài)能力,另一個是慢思考能力,在2024年都取得了突破性進展。因此,2025年被行業(yè)認為是AI至關重要的發(fā)展節(jié)點,Agent有望成為最重要的產(chǎn)品形態(tài),引領AI從傳統(tǒng)的“工具”角色向更具互動性與協(xié)作性的“伙伴”角色轉變。
全面爆發(fā)還要邁過幾道檻?
雖然AI Agent爆發(fā)曙光已現(xiàn),距離真正的爆發(fā)仍有不少要克服的障礙。
一個關鍵的挑戰(zhàn)是,缺少一個能夠支撐整個生態(tài)的操作系統(tǒng)。初創(chuàng)公司/dev/agents計劃為AI Agent開發(fā)一個類似于安卓操作系統(tǒng)的通用平臺,試圖解決目前Agent碎片化的局面。
其它挑戰(zhàn)還包括如何實現(xiàn)低延遲、帶視覺理解的實時反饋;如何構建個性化的記憶系統(tǒng);如何在虛擬與物理環(huán)境都具備執(zhí)行能力等等。只有當AI Agent從“工具”變成“工具使用者”時,真正的殺手級應用才會出現(xiàn)。
在Agent的構建上,仍有許多懸而未決的技術難題,例如大模型幻覺、長時記憶的前后一致性問題、以及增強多模態(tài)的理解能力。
AI Agent依賴大模型“黑盒”,本身就存在不可預測性。至今在解決一些邏輯、推理等核心問題上,Agent的能力還偏弱。因此,Agent各模塊之間如何配合、多個Agent如何交互、人類與Agent如何互動等方面,Agent技術尚處于早期階段。
接入Agent后,所有需要處理的業(yè)務場景,都會轉化成需要底層大模型理解的數(shù)據(jù),從而產(chǎn)生高昂的推理成本。斯坦福的虛擬小鎮(zhèn)框架開源后,每個Agent一天就需要消耗20美金的Token數(shù),比用人成本還要高。因此,如何控制高昂的調用成本,是擺在AI Agent面前的一大難題。
現(xiàn)階段一個最關鍵的制約因素,還是數(shù)據(jù)質量、數(shù)據(jù)規(guī)模、應用場景不足,AI模型、AI訓練數(shù)據(jù)集、AI場景落地部署,都遠遠不夠。
以AI Agent機器人為例,由于缺乏高質量的真實數(shù)據(jù),機器人就無從進行訓練。通過互聯(lián)網(wǎng)數(shù)據(jù),機器人的感知已經(jīng)出現(xiàn)了相當強的泛化,能夠更好地理解物理世界。
不少AI企業(yè)通過真實數(shù)據(jù)和仿真數(shù)據(jù)結合的方式,將任務過程中的數(shù)據(jù)“喂”給大模型。然而,仿真數(shù)據(jù)還是不夠真實,Agent在模擬世界能成功,但導入到現(xiàn)實世界就會有一定的失敗率。
所以,要結合現(xiàn)實世界實時動態(tài)信息,使AI系統(tǒng)不僅能夠理解信息,還要形成對物理現(xiàn)象的理解與智能決策能力,從而使得Agent能夠靈活應對現(xiàn)實世界的復雜情況。
導入現(xiàn)實世界動態(tài)數(shù)據(jù)將是大模型、AI Agent產(chǎn)生高階思維的必然路徑。一方面,基于互聯(lián)網(wǎng)上大量文本和圖像數(shù)據(jù)訓練的生成式AI模型(GPT、Llama等)在生成人類語言和抽象概念方面已經(jīng)基本滿足需求,但是受其生成規(guī)則的限制,對于現(xiàn)實世界的理解有限,因此會出現(xiàn)不符合現(xiàn)實世界規(guī)律的“幻覺”。
另一方面,機器無法感知和察覺它們周圍的世界,需要借助AI網(wǎng)絡構建和訓練各類Agent,并與現(xiàn)實世界進行實時交互并適應各種環(huán)境,從而實現(xiàn)對現(xiàn)實世界的洞察和理解。
比如交通領域,AI網(wǎng)絡將交通流量、氣象條件、道路狀況、城市環(huán)境等實時數(shù)據(jù)納入模型訓練,通過整合車輛、道路、云端等多方數(shù)據(jù),可以進行實時分析并為精準決策提供支持,幫助駕駛員和自動駕駛車輛即時優(yōu)化決策。同時,通過MogoMind等大模型對攝像頭視頻流進行實時處理,可以為交通管理部門提供精準的交通流量分析預測與動態(tài)優(yōu)化、事故預警、交通信號優(yōu)化等服務。
當前,AI Agent還遠未達到數(shù)據(jù)飛輪的啟動時刻,達不到自動駕駛般的普及度,而真實數(shù)據(jù)的成本極高,需要花長時間積累。數(shù)據(jù)的匱乏,不僅會影響模型的準確性和穩(wěn)定性,還制約了其在真實場景中的廣泛應用的可靠性。
Manus出現(xiàn)之前,業(yè)內便已經(jīng)紛紛預測,2025年將成為AI Agent商業(yè)化應用元年。DeepSeek爆火之后,其背后的V3、R1等多款AI大模型帶來的工程優(yōu)化和能力提升,快速引爆了市場熱情。在此基礎上,誰能基于這些模型能力打造出下一個超級App、超級Agent,成為行業(yè)關注的焦點。
斯蒂芬·茨威格在《人類群星閃耀時》中寫道:“充滿戲劇性和命運攸關的時刻在個人的一生中和歷史的進程中都是難得的;這種時刻往往只發(fā)生在某一天、某一小時甚至某一分鐘,但它們的決定性影響卻跨越時間?!?/p>
從DeepSeek到Manus,就像AI初春里第一朵盛開的小花,當我們看到這朵小花的時候,判斷其是不是曇花一現(xiàn),是沒有意義的;判斷它是不是整個春天里最漂亮的花,也沒有意義。過早斷言并無必要,執(zhí)著預測也非關鍵。
真正的遠見是:懷揣信念,默默耕耘,靜待破土的力量。當春天來了,而耕耘者早已備好沃土,讓每項AI技術都能找到適合的土壤,這或許就是智能生長的真正序幕。