文 | 窄播Weekly 李威(北京)
這是窄播Weekly的第48期,本周我們關(guān)注的商業(yè)動(dòng)態(tài)是:Manus發(fā)布的節(jié)點(diǎn)性意義。我們認(rèn)為,Manus的發(fā)布不是又一個(gè)DeepSeek時(shí)刻,而是對(duì)即將到來(lái)的AI Agent之爭(zhēng)的一次搶跑——雖然一時(shí)成為全場(chǎng)焦點(diǎn),卻還沒(méi)展現(xiàn)出成為冠軍的實(shí)力。
3月6日凌晨,Manus頭頂「全球首款通用型AI Agent產(chǎn)品」的稱號(hào)登上舞臺(tái)。在前排觀眾的高度贊譽(yù)和諸多官方案例效果的雙重加持下,Manus迅速成為營(yíng)銷號(hào)和媒體的寵兒。隨后,由于邀請(qǐng)碼一碼難求,用戶測(cè)試中出現(xiàn)了卡頓、遲緩、未完成任務(wù),使其口碑迅速兩極化,陷入「套殼」質(zhì)疑中。
與此同時(shí),國(guó)內(nèi)的MetaGPT和開(kāi)源社區(qū)CAMEL-AI兩個(gè)團(tuán)隊(duì)在很短時(shí)間里推出了開(kāi)源的Manus復(fù)刻項(xiàng)目。MetaGPT的Open Manus在GitHub上收獲了7000多顆星星,CAMEL-AI打造的OWL在智能體測(cè)試基準(zhǔn)GAIA開(kāi)源榜單上的得分為57.7%。借勢(shì)Manus,兩個(gè)團(tuán)隊(duì)各自收獲了一次破圈效果。
拋開(kāi)流量層面的造勢(shì)、營(yíng)銷、蹭熱點(diǎn)等行為不談,也不在沒(méi)有邀請(qǐng)碼的條件下圍繞評(píng)判Manus的實(shí)際效果,僅從產(chǎn)品思路及影響來(lái)看,Manus的這次搶跑會(huì)激化AI Agent的競(jìng)爭(zhēng),并且讓「GPTs類」智能體開(kāi)始退出歷史舞臺(tái)。
一方面,AI Agent在2024年就已經(jīng)被公認(rèn)會(huì)成為2025年AI競(jìng)爭(zhēng)的重頭戲。知名投行巴克萊在最新的研報(bào)中,將「推理模型」和「Agent」推為新時(shí)代的弄潮兒。Manus作為投入這波趨勢(shì)中的一條鯰魚(yú),大概率會(huì)刺激巨頭加速布局AI Agent。
進(jìn)入2025年,OpenAI已經(jīng)先后拋出了Operator和Deep Research兩個(gè) AI Agent。就在Manus走紅的這一周,微軟也發(fā)布了兩個(gè)新的AI Agent。Meta也在為Facebook和Instagram推出客服領(lǐng)域的AI Agent。亞馬遜的 AWS 被曝組建了一個(gè)致力于Agent開(kāi)發(fā)的新團(tuán)隊(duì),旨在幫助人們自動(dòng)化生活中的部分事務(wù)。
另一方面,人們對(duì)AI Agent的定位越來(lái)越清晰,無(wú)論是開(kāi)發(fā)者還是用戶,都更加強(qiáng)調(diào)AI Agent的任務(wù)執(zhí)行能力,而不是定制化的聊天能力。這也意味著,包括始作俑者OpenAI在內(nèi),都會(huì)逐漸放棄GPTs類智能體,去探索如何提升AI Agent的執(zhí)行效率。Manus會(huì)讓文小言和豆包中的「周易大師」們更快謝幕。
新的AI Agent競(jìng)爭(zhēng)階段會(huì)呈現(xiàn)出四個(gè)趨勢(shì):
1、從與AI合作,到監(jiān)督Agent工作;
2、好的Agent一定是合格的終端消費(fèi)品;
3、編程平權(quán)會(huì)帶來(lái)更靈活的執(zhí)行;
4、圍繞Agent開(kāi)始建設(shè)「統(tǒng)一市場(chǎng)」。
01 從與AI合作,到監(jiān)督Agent工作
在2023年,人們還會(huì)將GPTs那樣的,被高級(jí)Prompt搭建起來(lái)的,具備專業(yè)背景的聊天機(jī)器人稱作智能體。人人都可以開(kāi)發(fā)的智能體,其實(shí)是人人為不同場(chǎng)景定制化不同的聊天機(jī)器人,是人與AI合作完成對(duì)話任務(wù)。當(dāng)時(shí)的OpenAI和百度都希望這些智能體可以成為增加ChatGPT和文心一言使用市場(chǎng)的工具。
事實(shí)是,低頻的聊天需求聚合,根本帶不來(lái)用戶時(shí)長(zhǎng)的增長(zhǎng)。甚至,用戶選擇智能體也不是因?yàn)樗嗝从腥ぃ窍M芴嵘约旱男?。?dāng)大模型變得足夠聰明時(shí),人們召喚算命大師可能只需要一句話,沒(méi)有人會(huì)再去從眾多智能體中挑選出最順眼的算命大師。
GPTs們是在基于技術(shù)現(xiàn)狀思考產(chǎn)品形態(tài),而Manus是在打造一個(gè)載體去承載技術(shù)的未來(lái)——這也是Manus團(tuán)隊(duì)給到的一個(gè)避坑指南。
開(kāi)發(fā)AI產(chǎn)品不同于開(kāi)發(fā)互聯(lián)網(wǎng)產(chǎn)品,后者面對(duì)的技術(shù)與平臺(tái)相對(duì)穩(wěn)定,搭建起更好的產(chǎn)品體驗(yàn),類似有了智能手機(jī),在上面去開(kāi)發(fā)微信,前者強(qiáng)調(diào)對(duì)技術(shù)的預(yù)見(jiàn)性,據(jù)此來(lái)開(kāi)發(fā)產(chǎn)品,是要設(shè)計(jì)能夠讓汽油更充分燃燒的發(fā)動(dòng)機(jī)。
Manus之所以能夠給到很多人震撼的感覺(jué),是因?yàn)镸anus展現(xiàn)出了人發(fā)出命令,不要對(duì)話引導(dǎo),只用監(jiān)督Agent執(zhí)行的未來(lái)雛形,比Auto-GPT展現(xiàn)的自我思考、自我規(guī)劃能力要更能發(fā)揮未來(lái)AI的能力。
而且,Manus也不需要像AI Agent程序員Devin一樣,針對(duì)不同場(chǎng)景進(jìn)行針對(duì)性設(shè)定,而是說(shuō)一句話就能啟動(dòng)不同領(lǐng)域的任務(wù),讓人們使用AI的效率得到了提升。
當(dāng)然,這樣做的風(fēng)險(xiǎn)就在于,面向未來(lái)技術(shù)能力的載體,往往會(huì)在當(dāng)下露怯。Devin發(fā)布后,也遭受過(guò)質(zhì)疑,因?yàn)榧夹g(shù)需要進(jìn)一步迭代。而本就是要搶跑Agent比賽的Manus,既沒(méi)有做好全面開(kāi)放給用戶使用的準(zhǔn)備,也缺少讓通用AI Agent完美無(wú)缺的技術(shù)支持。
半黑半紅是他們自己早就做出了選擇的結(jié)果。
02 好的Agent一定是合格的消費(fèi)品
Manus的成功之處在于,從C端用戶的需求出發(fā),搭建起了一種高度靈活且低門檻的Agent服務(wù)模式。
在B端市場(chǎng),客戶只會(huì)為好的消費(fèi)品買單。而且,B端客戶對(duì)Agent的可靠性有更高的要求。也因此,AI Agent在B端的探索往往都是從某個(gè)垂直業(yè)務(wù)場(chǎng)景的優(yōu)化切入,所以會(huì)有Salesforce旗下Agentforce這樣的平臺(tái),為企業(yè)提供按需搭建AI Agent的服務(wù)。
在C端市場(chǎng),好的消費(fèi)品不只要好用,還要簡(jiǎn)單。首先,絕大部分用戶甚至對(duì)自己的需求都沒(méi)有一個(gè)清晰的認(rèn)知,腦子里只有一個(gè)模糊想法的時(shí)候,就會(huì)去尋求AI的幫助。其次,用戶即便有清晰的需求清單,知道如何分步完成,也很大概率不精通實(shí)現(xiàn)任務(wù)的工具。
這就導(dǎo)致,像字節(jié)扣子、騰訊元器這樣需要用戶自己搭建工作流的平臺(tái),更像是一個(gè)服務(wù)開(kāi)發(fā)者的平臺(tái),而不是解決C端用戶需求的平臺(tái)。豆包+扣子、元器+元寶的組合也一直沒(méi)能打出這套「需求對(duì)話+Agent執(zhí)行」的組合拳。在OpenAI、Google、Meta的Agent嘗試中,我們也還沒(méi)有看到統(tǒng)一需求入口+多Agent能力的低門檻產(chǎn)品組合。
復(fù)旦大學(xué)的技術(shù)團(tuán)隊(duì)推出過(guò)一個(gè)名為AI2Apps的一站式AI員工開(kāi)發(fā)與端側(cè)服務(wù)平臺(tái)。這個(gè)平臺(tái)有一套基于瀏覽器的Agent操作系統(tǒng),提供全套開(kāi)發(fā)工具,能像Devin一樣編寫代碼,是一種高階版的扣子。開(kāi)發(fā)者能在「建筑師Agent」的主導(dǎo)下完成某個(gè)崗位AI員工構(gòu)建與組合。但這依然沒(méi)有解決C端用戶的簡(jiǎn)單使用痛點(diǎn)。
但在Manus,用戶說(shuō)出一個(gè)需求,就會(huì)有Agent先進(jìn)行分析拆解,然后分配不同的Agent去執(zhí)行不同的工作,調(diào)用不同API完成任務(wù),還會(huì)有Agent負(fù)責(zé)反思和挑錯(cuò)。而且整個(gè)過(guò)程清晰可見(jiàn),用戶可以介入調(diào)整。
這是一個(gè)合格的消費(fèi)品應(yīng)該具備的素養(yǎng),把所有用戶看做小白,讓他們?cè)诓欢绾尉帉懢W(wǎng)頁(yè),如何調(diào)用API的情況下,也能高效完成任務(wù)。
但是,Manus欠缺的是,執(zhí)行具體任務(wù)的準(zhǔn)確度與精細(xì)度。這是一個(gè)打磨不同能力Agent的過(guò)程。
OpenAI也有類似Manus的想法。Deep Research的團(tuán)隊(duì)成員Josh Tobin就認(rèn)為,雖然這些Agent現(xiàn)在是獨(dú)立的,但人們?nèi)蘸竽軌蚴褂玫慕K極Agent,不會(huì)僅局限于網(wǎng)頁(yè)搜索、操作電腦或執(zhí)行人類助手的常規(guī)任務(wù),而是能夠以更自然的方式融合所有這些功能。
但Open AI選擇的是先通過(guò)定制化模型,訓(xùn)練出比大語(yǔ)言模型更適合執(zhí)行具體任務(wù)的Agent。其中,Operator是一個(gè)偏重執(zhí)行與操作的Agent,Deep Research更偏重信息的收集、整理、歸納。未來(lái)可能還會(huì)有其它的Agent出現(xiàn),但他們最終可能會(huì)成為ChatGPT手下的員工。
03 編程平權(quán)會(huì)帶來(lái)更靈活的執(zhí)行
如果說(shuō)大模型帶來(lái)的是在交互靈活性上的提升,那么AI推動(dòng)的編程平權(quán),會(huì)給Agent執(zhí)行任務(wù)帶來(lái)更靈活的手段。
Deep Research的團(tuán)隊(duì)成員Josh Tobin表示,一些公司構(gòu)建Agent時(shí),會(huì)選擇由人來(lái)搭建整個(gè)工作流,而工作流中的重要節(jié)點(diǎn),會(huì)由大語(yǔ)言模型掌控,由其來(lái)決定下一步的行動(dòng)。但這種方式構(gòu)建出來(lái)的Agent會(huì)比較死板,難以靈活應(yīng)付可能出現(xiàn)的所有場(chǎng)景。應(yīng)該是,利用先進(jìn)的推理模型,賦予它人類工作生活中使用的工具,直接針對(duì)期望Agent達(dá)成的結(jié)果進(jìn)行優(yōu)化。
所以Manus會(huì)強(qiáng)調(diào)「Less structure, more intelligence」,減少對(duì)AI的結(jié)構(gòu)化限制,選擇了依賴大模型能力來(lái)組建工作流。在大模型的指揮下,Agent會(huì)在自己的虛擬電腦上使用瀏覽器、編程工具等完成任務(wù)。這樣的好處是隨著大模型能力的增強(qiáng),對(duì)任務(wù)的理解和拆分就會(huì)越準(zhǔn)確。
在大模型做總指揮的基礎(chǔ)上,對(duì)編程能力的調(diào)用,會(huì)帶來(lái)解決復(fù)雜問(wèn)題的更好方案。在Manus的演示案例中,可以看到根據(jù)搜集到的信息創(chuàng)作儀表盤的操作是通過(guò)編程解決的,有用戶生成PPT也會(huì)先依靠編程能力寫出H5頁(yè)面,再把頁(yè)面轉(zhuǎn)存成圖片。編程平權(quán)帶來(lái)了執(zhí)行任務(wù)的更高可控性。
在本周,前谷歌 DeepMind 研究人員Misha Laskin和Ioannis Antonoglou創(chuàng)立的Reflection AI獲得1.3 億美元融資,要開(kāi)發(fā)超級(jí)智能。他們的第一步就是構(gòu)建一個(gè)自主編程工具,用于掃描代碼漏洞和優(yōu)化應(yīng)用程序內(nèi)存使用等場(chǎng)景。具備自主編程能力的Agent是他們構(gòu)建AI工作團(tuán)隊(duì)的重要技術(shù)基座。
04 Agent需要「統(tǒng)一市場(chǎng)」建設(shè)
Manus的一個(gè)局限是,可以選擇使用API調(diào)用不同的信息源和能力,但是API無(wú)法幫助Agent克服移動(dòng)互聯(lián)網(wǎng)的孤島效應(yīng)。在一些測(cè)試中,Manus能夠繞過(guò)一部分平臺(tái)的人機(jī)驗(yàn)證機(jī)制,但也會(huì)在調(diào)用其他平臺(tái)的API時(shí)報(bào)錯(cuò),在一些平臺(tái)上收集信息時(shí)也需要人類接管進(jìn)行登陸。
Agent需要一次「統(tǒng)一市場(chǎng)」的建設(shè)。
簡(jiǎn)單來(lái)看,用戶在登錄了Manus之后,如果想要發(fā)揮更好的效用,需要有一個(gè)連接范圍極廣的基于一個(gè)賬號(hào)的聯(lián)合登陸機(jī)制。在國(guó)外來(lái)看,能夠做到這一點(diǎn)的是Google,即便是Meta也還差點(diǎn)兒意思;在國(guó)內(nèi)來(lái)看,微信的連接范圍廣,但也不如Google賬號(hào)。
即便是在互聯(lián)互通的口號(hào)下,國(guó)內(nèi)的互聯(lián)網(wǎng)產(chǎn)品想要實(shí)現(xiàn)聯(lián)合登陸機(jī)制,也是一個(gè)很困難的任務(wù)。所以就出現(xiàn)了GUI(圖形用戶接口)Agent,希望通過(guò)讓AI讀取屏幕信息,在更底層繞過(guò)App之間的墻。AutoGLM、computer use等能力的推出,都是在這個(gè)方向上做的準(zhǔn)備。
與之相比,Manus的AI+虛擬機(jī)方案雖然更安全、更易實(shí)現(xiàn),但局限多,不夠底層。
一個(gè)更長(zhǎng)遠(yuǎn)的目標(biāo)是,基于GUI Agent形成一套以Agent為核心搭建的操作系統(tǒng)。就像Meta的首席AI專家楊立昆(Yann Lecun)所言,短期內(nèi)需要讓AI系統(tǒng)能夠執(zhí)行一系列行動(dòng),長(zhǎng)期來(lái)看則需要下一代AI系統(tǒng)的支持。
這個(gè)操作系統(tǒng),本質(zhì)上就是一個(gè)融合軟硬件能力,能協(xié)作不同模型的「大腦」。