文|王吉偉
最近發(fā)布的幾個(gè)關(guān)于2024趨勢的重磅報(bào)告,無一例外都提到了AI Agent。
埃森哲在《技術(shù)展望2024》報(bào)告中指出,96%的企業(yè)高管認(rèn)為AI Agent生態(tài)系統(tǒng)應(yīng)用將在未來3年內(nèi)為他們的組織帶來重大機(jī)遇。
報(bào)告認(rèn)為,隨著人工智能向智能體演進(jìn),自動化系統(tǒng)將能夠自主決策和行動。智能體不僅會為人類提供建議,還將代表人類采取行動。人工智能將繼續(xù)生成文本、圖像和洞察,而AI Agent將自行決定如何處理這些信息。
當(dāng)智能體升級成人類的同事后,就需要人類與智能體一起重新構(gòu)建技術(shù)和人才的未來。
IDC《AIGC應(yīng)用層十大趨勢》報(bào)告中調(diào)研表明,所有企業(yè)都認(rèn)為AI Agent是AIGC發(fā)展的確定性方向,50%的企業(yè)已經(jīng)在某項(xiàng)工作中進(jìn)行了AI Agent的試點(diǎn),另有34%的企業(yè)正在制定AI Agent的應(yīng)用計(jì)劃。
這個(gè)報(bào)告,也對AI Agent發(fā)展趨勢做了兩點(diǎn)預(yù)測:
- AI Agent讓“人機(jī)協(xié)同”成為新常態(tài),個(gè)人與企業(yè)步入AI 助理時(shí)代。AI Agent能夠幫助未來企業(yè)構(gòu)建以“人機(jī)協(xié)同”為核心的智能化運(yùn)營新常態(tài)。
- AI Agent變革未來生產(chǎn)力的組織形式,對抗組織熵增。未來企業(yè)工作任務(wù)將在AIGC的助推作用下變得日益原子化和碎片化,復(fù)雜的流程將被無限拆解,再進(jìn)行靈活的編排和組合,每個(gè)環(huán)節(jié)的效能和潛力都將被AI持續(xù)挖掘。從供給端看,“人+AI數(shù)字員工”的高效協(xié)同模式將為大型企業(yè)對抗組織熵增提供理想的解法。
而在騰訊發(fā)布的《2024數(shù)字科技前沿應(yīng)用趨勢》中,“多模態(tài)智能體加速AGI進(jìn)程”被列為第二大趨勢。
該報(bào)告認(rèn)為,通用人工智能漸行漸近,大模型走向多模態(tài),AI智能體(Agent)有望成為下一代平臺;端側(cè)大模型加速部署,或?qū)⒊蔀槲磥斫换バ氯肟?。AI在數(shù)學(xué)推理、新藥研發(fā)、材料發(fā)現(xiàn)、蛋白質(zhì)合成等領(lǐng)域大顯身手, "AI科學(xué)家"有望加速問世。
這三個(gè)報(bào)告,一方面預(yù)測了AI Agent的未來發(fā)展趨勢,另一方面也同時(shí)提及了多模態(tài)大模型、數(shù)字員工、具身智能等一系列概念。
其中IDC給出的新型數(shù)字員工概念,與AI Agent有了非常強(qiáng)的關(guān)聯(lián)。此外該報(bào)告中所提到的“一個(gè)人加上足夠的AI工具,就可以成為一家專業(yè)化公司”的Agent應(yīng)用,也指向了當(dāng)前正在熱議的超級個(gè)體。
事實(shí)上,AI Agent不只關(guān)聯(lián)了兩個(gè)概念,還催生了更多的研究方向。那么,數(shù)字員工和超級個(gè)體與AI Agent有什么關(guān)聯(lián)?具身智能與AI Agent有什么關(guān)系?AI Agent都有哪些研究方向?
本文,王吉偉頻道就與大家聊聊這些。
研究方向一:基于大型語言模型的AI Agent
大語言模型(Large Language Models,LLM)是一種使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建的基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務(wù),如文本摘要、問答、翻譯等。
2023年,大語言模型及其在人工智能領(lǐng)域的應(yīng)用已成為全球科技研究的熱點(diǎn),其在規(guī)模上的增長尤為引人注目,參數(shù)量已從最初的十幾億躍升到如今的一萬億。
參數(shù)量的提升使得模型能夠更加精細(xì)地捕捉人類語言微妙之處,更加深入地理解人類語言的復(fù)雜性。
在過去的一年里,大語言模型在吸納新知識、分解復(fù)雜任務(wù)以及圖文對齊等多方面都有顯著提升。隨著技術(shù)的不斷成熟,它將不斷拓展其應(yīng)用范圍,為人類提供更加智能化和個(gè)性化的服務(wù),進(jìn)一步改善人們的生活和生產(chǎn)方式。
大語言模型的浪潮推動了AI Agent 相關(guān)研究快速發(fā)展,AI Agent是當(dāng)前通往 AGI 的主要探索路線。
大模型龐大的訓(xùn)練數(shù)據(jù)集中包含了大量人類行為數(shù)據(jù),為模擬類人的交互打下了堅(jiān)實(shí)基礎(chǔ);另一方面,隨著模型規(guī)模不斷增大,大模型涌現(xiàn)出了上下文學(xué)習(xí)能力、推理能力、思維鏈等類似人類思考方式的多種能力。
LLM提供了AI Agent的新基座,自動化和擬人化是兩大方向。大語言模型龐大的訓(xùn)練數(shù)據(jù)集中包含了大量人類行為數(shù)據(jù),為模擬類人的交互打下了堅(jiān)實(shí)基礎(chǔ);另一方面,隨著模型規(guī)模不斷增大,大模型涌現(xiàn)出了上下文學(xué)習(xí)能力、推理能力、思維鏈等類似人類思考方式的多種能力。
將大模型作為 AI Agent 的核心大腦,就可以實(shí)現(xiàn)以往難以實(shí)現(xiàn)的將復(fù)雜問題拆解成可實(shí)現(xiàn)的子任務(wù)、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容量限制等,通過讓大模型借助一個(gè)或多個(gè)Agent的能力,構(gòu)建成為具備自主思考決策和執(zhí)行能力的智能體,成為了當(dāng)前通往AGI的主要研究方向。
在AGI時(shí)代到來之前,AI Agent的能力的極限將主要受其大腦也就是LLM的影響,可以說LLM決定了Agent在未來的普及與應(yīng)用。
因此,基于LLM的AI Agent,將是人們長期研究的方向。
研究方向二:AI Agent構(gòu)建、應(yīng)用與評估
這是AI Agent研究的主要方向。
構(gòu)建AI Agent需要深入理解其核心技術(shù),包括LLM、記憶、規(guī)劃技能和工具使用能力。AI Agent的應(yīng)用領(lǐng)域非常廣泛,包括游戲、個(gè)人助理、情感陪伴等。
評估AI Agent的性能是研究的重要部分,需要考慮如何在零樣本條件下評估其通用語言理解和推理能力。
AI Agent的構(gòu)建、應(yīng)用和評估,都是人工智能研究的重要部分。
AI Agent構(gòu)建
AI Agent的構(gòu)建主要包括四個(gè)部分:大模型、規(guī)劃、記憶和工具使用。
大模型:大模型(如GPT-4及文心一言、通義千問等)作為AI Agent的“大腦”,提供推理、規(guī)劃等能力。
規(guī)劃:代理能夠?qū)⒋笮腿蝿?wù)分解為更小的、可管理的子目標(biāo),從而更好地處理復(fù)雜任務(wù)。
記憶:AI代理具備長時(shí)間保留和回憶信息的能力,通常通過利用外部向量存儲和快速檢索實(shí)現(xiàn)。
工具使用:代理學(xué)習(xí)調(diào)用外部 API 以獲取模型權(quán)重中缺失的額外信息,包括當(dāng)前信息、代碼執(zhí)行能力、對專有信息源的訪問等。
這四個(gè)模塊與AI Agent能力的提升息息相關(guān),接下來會有很多組織投入大量且持續(xù)的研究工作,以提升AI Agent能力的應(yīng)用與普及速率。
AI Agent應(yīng)用
AI Agent在多個(gè)領(lǐng)域都有應(yīng)用,包括但不限于教育、游戲、網(wǎng)絡(luò)購物和網(wǎng)頁瀏覽等。比如在教育領(lǐng)域,AI代理提供個(gè)性化、智能化和高效化的服務(wù),優(yōu)化學(xué)習(xí)體驗(yàn)。
關(guān)于AI Agent在各領(lǐng)域的的應(yīng)用,本書將在第二部分展開探討。
AI Agent評估
評估AI Agent是一項(xiàng)很大的挑戰(zhàn),需要量化和客觀地衡量其智能水平。圖靈測試是一種常見的評估方法,用于評估人工智能系統(tǒng)是否表現(xiàn)出類似人類的智能。
此外,還有專門的基準(zhǔn)測試,如AgentBench,用于評估LLMs作為智能體在各種真實(shí)世界挑戰(zhàn)和不同環(huán)境中的表現(xiàn)。接下來將會有更多的基準(zhǔn)測試面向Agent的各個(gè)環(huán)節(jié),以促進(jìn)Agent生態(tài)的良性發(fā)展與生態(tài)完善。
研究方向三:多智能體系統(tǒng)
多智能體系統(tǒng)(Multi-Agent Systems, MAS)是由多個(gè)互相協(xié)作或競爭的自治智能體組成的系統(tǒng),旨在通過集體行為解決復(fù)雜問題。在MAS中,每個(gè)智能體都具有一定程度的自主性,并能夠感知環(huán)境、作出決策,并與其他智能體交互。
智能體可以執(zhí)行多種任務(wù),其具體性質(zhì)取決于系統(tǒng)的目標(biāo)和應(yīng)用領(lǐng)域。智能體的主要任務(wù)通常包括感知環(huán)境、處理信息、作出決策,并與其他智能體交互以實(shí)現(xiàn)共同的目標(biāo)。
多智能體系統(tǒng)是人工智能的一個(gè)重要分支,它研究如何設(shè)計(jì)和實(shí)現(xiàn)多個(gè)智能體之間的協(xié)作和競爭的機(jī)制和方法。它具有以下特點(diǎn):
1、由多個(gè)自治的、互動的、異構(gòu)的智能體組成,每個(gè)智能體都有自己的目標(biāo)、行為、信念和偏好,同時(shí)也受到環(huán)境的影響和約束。
2、目標(biāo)是實(shí)現(xiàn)智能體之間的協(xié)作和競爭的平衡,使得每個(gè)智能體都能達(dá)到自己的目標(biāo),同時(shí)也能促進(jìn)整個(gè)系統(tǒng)的性能和效益。
3、難點(diǎn)是如何處理智能體之間的復(fù)雜的交互和協(xié)調(diào),如何解決智能體之間的沖突和矛盾,如何評估智能體的表現(xiàn)和進(jìn)步,如何接受人類的反饋和指導(dǎo),如何遵守人類的倫理和法律等。
多智能體協(xié)作系統(tǒng)(Multi-Agent Collaboration Systems,MACS)是一種特殊的多智能體系統(tǒng),其目標(biāo)是使多個(gè)智能體能夠有效地協(xié)作,以實(shí)現(xiàn)一些超出單個(gè)智能體能力范圍的任務(wù)。
Agent可以以協(xié)作或競爭的方式相互交互。這使他們能夠通過團(tuán)隊(duì)合作或?qū)剐曰觼韺?shí)現(xiàn)進(jìn)步。在這些系統(tǒng)中,Agent可以共同完成復(fù)雜的任務(wù)或相互競爭以提高其性能。
比如用于模擬和優(yōu)化交通、能源、物流等領(lǐng)域的復(fù)雜系統(tǒng),也可以用于設(shè)計(jì)和實(shí)現(xiàn)智能家居、智能城市、智能工廠等應(yīng)用場景。
多智能體協(xié)作系統(tǒng)的核心挑戰(zhàn)是如何實(shí)現(xiàn)智能體之間的協(xié)作和競爭的平衡,以及如何使智能體能夠根據(jù)不同的任務(wù)和角色進(jìn)行自適應(yīng)和學(xué)習(xí)。
近年來,隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自然語言處理等技術(shù)的發(fā)展,多智能體協(xié)作系統(tǒng)的研究也取得了一些重要的進(jìn)展和突破。
例如,CAMEL是一個(gè)首個(gè)大模型多智能體框架,它可以讓多個(gè)智能體在一個(gè)共享的環(huán)境中進(jìn)行協(xié)作和競爭的學(xué)習(xí),同時(shí)也可以讓智能體之間進(jìn)行自然語言的交流和協(xié)商。CAMEL已經(jīng)在NeurIPS 2023上斬獲了3.6k星,展示了多智能體協(xié)作系統(tǒng)的巨大潛力和前景。
另外,還有一些具有代表性的多智能體協(xié)作系統(tǒng),如OpenAI Five、AlphaStar、DeepMind Quake III Arena Capture the Flag等,它們分別在DOTA 2、星際爭霸II、雷神之錘III等游戲中,展示了超越人類水平的協(xié)作和競爭的能力。
多智能體系統(tǒng)是人工智能的一個(gè)前沿和熱點(diǎn)的研究領(lǐng)域,涉及到多個(gè)學(xué)科和領(lǐng)域,如計(jì)算機(jī)科學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、社會學(xué)、生物學(xué)等。
其研究和應(yīng)用對于理解人類智能的本質(zhì)和機(jī)制,提高人工智能的水平和能力,解決人類社會的各種問題,都具有重要的意義和價(jià)值。
研究方向四:自主智能體
在人工智能領(lǐng)域,自主智能體(Autonomous Agent)是指能夠在環(huán)境中感知、學(xué)習(xí)和執(zhí)行動作的智能實(shí)體。這種實(shí)體具有自主性,即它能夠獨(dú)立地做出決策和行動,而無需人為干預(yù)。
自主智能體具備自主決策和行動能力,能夠在給定的環(huán)境中自主地感知、學(xué)習(xí)和做出決策,以實(shí)現(xiàn)特定的目標(biāo)。自主智能體能夠根據(jù)環(huán)境的變化和反饋信息,不斷地適應(yīng)和改進(jìn)自己的行為,從而實(shí)現(xiàn)更好的性能和效果。
它通常被設(shè)計(jì)成具備對環(huán)境的感知能力,能夠根據(jù)感知到的信息做出理性的決策,并執(zhí)行相應(yīng)的動作以達(dá)到特定的目標(biāo)。在實(shí)現(xiàn)自主性的過程中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)發(fā)揮了關(guān)鍵作用。
自主智能體的設(shè)計(jì)和實(shí)現(xiàn)涉及多個(gè)方面,包括但不限于機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺等AI技術(shù)的綜合運(yùn)用。
它們被設(shè)計(jì)用于執(zhí)行各種不同的任務(wù),如管理社交媒體賬戶、投資市場、制作兒童讀物等,甚至在一些情況下,它們可以幫助人們釋放時(shí)間去做更有創(chuàng)造性的事情。
其研究價(jià)值主要體現(xiàn)在強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)中,例如deepmind的Alphago和Openai的 OpenaiFive(一個(gè)會打團(tuán)戰(zhàn)的Dota2游戲AI)都是比較典型的基于強(qiáng)化學(xué)習(xí)智能體運(yùn)用。
LLM爆發(fā)以后,近一年來關(guān)于Agent的研究和話題開始呈現(xiàn)井噴之勢,例如AutoGPT、 BabyAGI、 Generative Agents、MetaGPT等項(xiàng)目在Github上已狂攬上萬star,成為炙手可熱的明星項(xiàng)目。
使用自主智能體,一般涉及以下步驟:
確定問題和目標(biāo):首先,需要明確問題和目標(biāo),即定義智能體需要解決的任務(wù)和期望的結(jié)果。
構(gòu)建環(huán)境模型:了解和建模智能體與環(huán)境之間的交互方式,包括狀態(tài)空間、行動空間、獎勵函數(shù)等。
選擇合適的算法:根據(jù)問題的性質(zhì)和特點(diǎn),選擇適合的強(qiáng)化學(xué)習(xí)算法或其他相關(guān)算法來訓(xùn)練自治代理。
訓(xùn)練和優(yōu)化:使用選擇的算法和環(huán)境模型,通過與環(huán)境的交互和反饋,訓(xùn)練自治代理以學(xué)習(xí)適當(dāng)?shù)臎Q策策略,以最大化累積獎勵或?qū)崿F(xiàn)特定目標(biāo)。
調(diào)優(yōu)和評估:根據(jù)訓(xùn)練過程中的表現(xiàn)和性能,對自治代理進(jìn)行調(diào)優(yōu)和評估,以提高其決策能力和效果。
相比于之前的基于強(qiáng)化學(xué)習(xí)的Agent研究,現(xiàn)在的Agent主要是指以大模型技術(shù) (LLM) 作為主體或者大腦,能進(jìn)行自動規(guī)劃,擁有自主決策能力,以解決復(fù)雜問題的智能體。
近年來,有關(guān)自主智能體的研究有了許多突破性進(jìn)展,以往困擾AI Agent研究者的社會交互性和智能性問題都隨著大語言模型(LLM)的發(fā)展有了新的解決方向。
例如,已經(jīng)有一些研究工作在探索如何通過引導(dǎo)大模型進(jìn)行任務(wù)分解的大模型提示方法,如Chain-of-Thought,以及如何使用工具學(xué)習(xí)(Tool Learning)的概念,強(qiáng)調(diào)了運(yùn)用大模型來進(jìn)行工具的創(chuàng)造和使用,并提供了BMTools工具包。
此外,還有一些研究工作在探索如何通過記憶模塊提升精準(zhǔn)記憶和復(fù)雜推理能力。總的來說,自主智能體的研究進(jìn)展迅速,展現(xiàn)出巨大的潛力和前景。
研究方向五:生成式智能體
生成式智能體(Generative Agents)可以定義為一種計(jì)算軟件智能體,能夠模擬可信的人類行為。它們能夠存儲智能體的完整經(jīng)驗(yàn)記錄,將這些記憶隨時(shí)間整合為更高級別的反思,并動態(tài)地檢索這些記憶以規(guī)劃行為。
生成式智能體能夠?qū)ψ约?、其他智能體和環(huán)境進(jìn)行廣泛的推理。面對新任務(wù)時(shí),它們可以利用已獲得的一般知識和策略迅速調(diào)整學(xué)習(xí)方法,減少對大量樣本的依賴。這種技術(shù)可廣泛應(yīng)用于交互式應(yīng)用,如沉浸式環(huán)境、人際溝通的排練空間和原型設(shè)計(jì)工具等。
生成式智能體的概念,最早由斯坦福大學(xué)和谷歌的研究人員于2023年在論文《Generative Agents: Interactive Simulacra of Human Behavior》中提出。
論文地址:https://arxiv.org/abs/2304.03442
為了創(chuàng)建生成式智能體,研究者構(gòu)建了一個(gè)系統(tǒng)架構(gòu),此架構(gòu)擴(kuò)展了大型語言模型的功能,使其能夠存儲智能體使用自然語言的經(jīng)驗(yàn)記錄。隨著時(shí)間的推移,這些記憶會被整合為更高級別的思考,并被動態(tài)檢索以規(guī)劃智能體的行為。
研究者將生成式智能體實(shí)際應(yīng)用到一個(gè)互動沙盒環(huán)境中,這個(gè)環(huán)境受到了《模擬人生》的啟發(fā)。在這個(gè)環(huán)境中,終端用戶可以使用自然語言與一個(gè)由25個(gè)智能體組成的小鎮(zhèn)進(jìn)行互動。
這些智能體的行為表現(xiàn)得就像人類一樣:他們早晨醒來,為自己做早餐,然后去工作;藝術(shù)家智能體會創(chuàng)作畫作,而作家智能體會撰寫文章;他們可以形成自己的觀點(diǎn),關(guān)注其他智能體,并展開對話;在規(guī)劃第二天的工作時(shí),他們會回憶并思考過去的日子。
此外,這些智能體還能使用自然語言來存儲與智能體相關(guān)的完整記錄,隨著時(shí)間的推移將這些記憶整合為更高級別的思考,并動態(tài)地檢索這些記憶以指導(dǎo)其行為。
評估結(jié)果顯示,這些生成式智能體展現(xiàn)了可信的個(gè)體和社會行為。例如,從一個(gè)用戶指定的概念開始,即一個(gè)智能體想舉辦一個(gè)情人節(jié)派對,這些智能體在接下來的兩天里自主地傳播派對的邀請,結(jié)識新朋友,互相約定參加派對,并協(xié)調(diào)在正確的時(shí)間一起出現(xiàn)在派對上。
研究結(jié)果表明,智能體架構(gòu)的組成部分即觀察、計(jì)劃和反思等能力,都對智能體行為的可信度起到了關(guān)鍵性作用。
這項(xiàng)研究將大型語言模型與計(jì)算、交互式智能體相結(jié)合,為實(shí)現(xiàn)對人類行為的可信模擬奠定了基礎(chǔ)。
此外,這項(xiàng)研究還證明了可信的人類行為智能體能夠增強(qiáng)交互式應(yīng)用程序的功能,從沉浸式環(huán)境到人際交流的排練空間,再到原型設(shè)計(jì)工具等。
研究方向六:人機(jī)協(xié)同
未來生成式AI帶來的人機(jī)協(xié)同,將會呈現(xiàn)三種模式:嵌入(embedding)模式、副駕駛(Copilot)模式及智能體(Agent)模式。
Embedding模式:用戶通過與AI進(jìn)行語言交流,使用提示詞來設(shè)定目標(biāo),AI協(xié)助用戶完成這些目標(biāo)。
Copilot模式:在這種模式下,人類和AI各自發(fā)揮作用。AI介入到工作流程中,從提供建議到協(xié)助完成流程的各個(gè)階段。
Agent模式:由人類設(shè)定目標(biāo)并提供資源,這些資源通常是計(jì)算能力,然后監(jiān)督結(jié)果。在這種情況下,Agent承擔(dān)了大部分工作。
Agent模式,會成為未來人機(jī)交互的主要模式。
Agent時(shí)代的人機(jī)協(xié)作(Human-Agent Collaboration,簡稱 HAC)是指人類與智能體(如機(jī)器人、虛擬助手等)之間的合作與協(xié)同,共同完成特定任務(wù)或解決問題。
Agent可以與人互動,為人提供幫助并更高效、安全地執(zhí)行任務(wù)。他們可以理解人類的意圖并調(diào)整他們的行為以提供更好的服務(wù)。人類反饋還可以幫助Agent提高性能。
在Agent模式下,人類設(shè)定目標(biāo)和提供必要的資源(例如計(jì)算能力),AI獨(dú)立地承擔(dān)大部分工作,最后人類監(jiān)督進(jìn)程以及評估最終結(jié)果。這種合作模式結(jié)合了人類的創(chuàng)造力和判斷力與智能代理的數(shù)據(jù)處理和實(shí)時(shí)響應(yīng)能力,旨在實(shí)現(xiàn)更高效、更智能的工作方式。
這種模式下,AI充分體現(xiàn)了智能體的互動性、自主性和適應(yīng)性特征,接近于獨(dú)立的行動者,而人類則更多地扮演監(jiān)督者和評估者的角色。智能體模式相較于嵌入模式、副駕駛模式無疑更為高效,或?qū)⒊蔀槲磥砣藱C(jī)協(xié)同的主要模式。
AI Agent的出現(xiàn),使得大模型從“超級大腦”進(jìn)化為人類的“全能助手”。AI Agent不僅需要具備處理任務(wù)和問題的智能能力,還需要擁有與人類進(jìn)行自然交互的社交智能。
這種社交智能包括理解和生成自然語言、識別情感和情緒等能力。社交智能的發(fā)展將使得AI Agent能夠更好地與人類進(jìn)行合作和交流,拓展其應(yīng)用場景。
基于大模型的Agent不僅可以讓每個(gè)人都有增強(qiáng)能力的專屬智能助理,還將改變?nèi)藱C(jī)協(xié)同的模式,必會帶來更為廣泛的人機(jī)融合。
研究方向七:超級個(gè)體
基于Agent的人機(jī)協(xié)同模式,每個(gè)普通個(gè)體都有可能成為超級個(gè)體。
超級個(gè)體是一個(gè)由許多有機(jī)體組成的有機(jī)體系,通常是一個(gè)真社會性動物的社會單位,其中社會分工被高度專業(yè)化,且個(gè)體無法獨(dú)自長時(shí)間地生存。
在現(xiàn)代社會中,超級個(gè)體也可以指精通一項(xiàng)或多項(xiàng)專業(yè)技能,并完成商業(yè)變現(xiàn),最終對傳統(tǒng)雇傭關(guān)系實(shí)現(xiàn)脫離依附的復(fù)合型人才。
AI Agent可以賦予超級個(gè)體更多的機(jī)遇,使個(gè)人能夠在更廣闊的領(lǐng)域展示才華,通過AI賦能進(jìn)行創(chuàng)造性工作,足以打造一個(gè)人的團(tuán)隊(duì)與公司。
超級個(gè)體是擁有自己的AI團(tuán)隊(duì)與自動化任務(wù)工作流,基于Agent與其他超級個(gè)體建立更為智能化與自動化的協(xié)作關(guān)系?,F(xiàn)在業(yè)內(nèi)不乏一人公司、超級個(gè)體的積極探索。
Github平臺上,已經(jīng)出現(xiàn)一些基于Agents的自動化團(tuán)隊(duì)項(xiàng)目。
GPTeam利用大模型創(chuàng)建多個(gè)被賦予角色和功能的智能體,多智能體協(xié)作以實(shí)現(xiàn)預(yù)定目標(biāo)。
Dev-GPT是一個(gè)自動化開發(fā)和運(yùn)維的多智能體協(xié)作團(tuán)隊(duì),包含了產(chǎn)品經(jīng)理Agent、開發(fā)人員Agent和運(yùn)維人員Agent等角色分工。這個(gè)多智能體團(tuán)隊(duì)可以滿足和支撐一個(gè)初創(chuàng)營銷公司的正常運(yùn)營,這便是一人公司。
還有號稱是世界上第一個(gè)AI自由職業(yè)者平臺的NexusGPT,該平臺整合了開源數(shù)據(jù)庫中的各種AI原生數(shù)據(jù),并擁有800多個(gè)具有特定技能的AI智能體。
在這個(gè)平臺上,你可以找到不同領(lǐng)域的專家,例如設(shè)計(jì)師、咨詢顧問、銷售代表等。雇主可以隨時(shí)在這個(gè)平臺上選擇一個(gè)AI智能體幫助他們完成各種任務(wù)。
現(xiàn)在很多人在使用AI工具來增強(qiáng)勞動力或生產(chǎn)技能,將個(gè)人生產(chǎn)流程自動化,一個(gè)人可以取代一家公司的工作,這可以看作是超級個(gè)體的初級形態(tài)。
在王吉偉頻道看來,以后每個(gè)人都可以選擇多樣化的合作方式,通過與不同的個(gè)人助手或者智能體相互協(xié)同,成為超級個(gè)體。
未來的公司的核心運(yùn)營都將是自動化的,任務(wù)可以被分解成模塊化的流程,自動化執(zhí)行。這就意味著一個(gè)人可以經(jīng)營多家不同的公司,只需設(shè)置好業(yè)務(wù)系統(tǒng)即可。
與之而來的,公司的運(yùn)營也將會更加依賴超級個(gè)體、專業(yè)模型和AI團(tuán)隊(duì)的構(gòu)建。
研究方向八:數(shù)字員工
數(shù)字員工通常指的是結(jié)合了人工智能和機(jī)器人流程自動化(RPA)技術(shù)的自動化工具和應(yīng)用,從人力資源角度來看它是一種高度擬人化的新型數(shù)字化工作人員。
它們能夠在不需要人工直接參與的情況下,自動執(zhí)行大量的重復(fù)性和規(guī)則明確的任務(wù),從而提高工作效率和質(zhì)量。
數(shù)字員工利用現(xiàn)代技術(shù)和數(shù)據(jù)分析能力,融合AI、RPA、大數(shù)據(jù)分析、數(shù)字人及機(jī)器人等多重技術(shù),通過自動化和智能化手段,為企業(yè)提供了一種新的勞動力和工作效率提升的工具。
數(shù)字員工可以代替我們執(zhí)行很多重復(fù)性的工作,當(dāng)然并不是“取代”人類,而是幫我們更高效地完成工作。
數(shù)字員工的概念包括了以下幾個(gè)特點(diǎn):
軟件而非實(shí)體機(jī)器人:數(shù)字員工是通過軟件實(shí)現(xiàn)的,而不是物理存在的機(jī)器人。
適用于特定場景:數(shù)字員工特別適用于那些規(guī)則清晰、重復(fù)性強(qiáng)的工作環(huán)境。
廣泛應(yīng)用:數(shù)字員工已經(jīng)被廣泛應(yīng)用于金融、制造業(yè)、零售業(yè)等多個(gè)行業(yè)和領(lǐng)域。
數(shù)字員工正在被視為一種創(chuàng)新的勞動力形式,它們能夠幫助企業(yè)在降低成本、提高效率的同時(shí),減少對人力的依賴。目前很多行業(yè)正在逐步引入這項(xiàng)技術(shù),其中在金融、政企、通信、能源等領(lǐng)域已經(jīng)能夠有很高的應(yīng)用滲透率。
數(shù)字員工離不開AI技術(shù)的支撐,比如其基礎(chǔ)技術(shù)RPA正是基于AI構(gòu)建的產(chǎn)品,其他如對話機(jī)器人、數(shù)字人等都是AI的應(yīng)用。
現(xiàn)在大語言模型的爆發(fā)與應(yīng)用也為數(shù)字員工帶來了巨大的技術(shù)變革,尤其是其與AI Agent的融合正在催生一種RPA Agent的數(shù)字員工形態(tài)。
RPA Agent一般是由RPA\超自動化廠商推出的基于RPA構(gòu)建的AI Agent,或者在Agent構(gòu)建中將RPA作為UI自動化的工具的AI Agent。它同時(shí)結(jié)合了API和用戶界面(UI)自動化,極大提升了AI Agent的執(zhí)行能力。
王吉偉頻道認(rèn)為,基于LLM的RPA Agent兼顧API與UI自動化,能夠深入企業(yè)管理系統(tǒng)的復(fù)雜流程自動化構(gòu)建中的數(shù)據(jù)庫讀取、API管理及UI自動化連接等操作,解決了僅是基于API接口讀取數(shù)據(jù)及調(diào)用工具插件類Agent執(zhí)行能力不足的問題。
擴(kuò)展閱讀:API難以解決AI智能體執(zhí)行能力問題,AI Agent深度落地鎖定RPA
將數(shù)字員工中的RPA技術(shù)升級為RPA Agnet,或者在以RPA為工具的AI Agent基礎(chǔ)上構(gòu)建數(shù)字員工,將會使數(shù)字員工的能力大大飛躍。
通過大語言模型及AI Agent加持的Agent數(shù)字員工,具備更高的智能化與自主能力,可以在單位時(shí)間內(nèi)規(guī)劃任務(wù)并調(diào)用各種工具完成大量工作,并能夠使用自然語言與人類進(jìn)行溝通交流和協(xié)調(diào)。
目前,除了RPA\超自動化廠商在進(jìn)行這一項(xiàng)研究并推出相關(guān)產(chǎn)品之外,大模型廠商以及一些科研機(jī)構(gòu)也正在做這方面的研究。
比如清華自然語言處理實(shí)驗(yàn)室等機(jī)構(gòu)共同發(fā)布了新一代流程自動化范式 Agentic Process Automation(APA,相關(guān)項(xiàng)目為ProAgent),該范式實(shí)現(xiàn)了工作流構(gòu)建的自動化,以及工作流執(zhí)行時(shí)動態(tài)決策的自動化,并通過實(shí)驗(yàn)揭示了大模型智能體在自動化中的可行性與潛力。
論文地址:https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf
研究方向九:具身智能
具身智能(Embodied Intelligence)指的是機(jī)器人或智能體通過感知、理解和交互來適應(yīng)環(huán)境,并執(zhí)行任務(wù)的能力。與傳統(tǒng)的基于規(guī)則或符號的人工智能不同,具身智能強(qiáng)調(diào)將感知和行動相結(jié)合,使智能體能夠更好地理解其周圍的環(huán)境和與環(huán)境的互動。
AI系統(tǒng)具備感知和行動能力,能夠通過與環(huán)境的交互來獲取知識和經(jīng)驗(yàn)。AI Agent是具身智能系統(tǒng)的一種特殊形式,它可以理解和響應(yīng)用戶的需求,提供個(gè)性化的服務(wù)和建議。
AI Agent和具身智能的結(jié)合,可以有效推動AI大模型的應(yīng)用落地,主要包括以下幾點(diǎn):
1. 提升綜合能力。AI大模型本身并不具備感知環(huán)境和執(zhí)行動作的能力,而具身智能可以為AI大模型提供這些能力,使其能夠更好地理解環(huán)境、做出決策并執(zhí)行動作。
2. 實(shí)現(xiàn)實(shí)時(shí)決策和執(zhí)行。AI大模型的訓(xùn)練和推理通常需要較長的時(shí)間和大量的計(jì)算資源。將計(jì)算任務(wù)分配給云端的AI Agent,而將感知和執(zhí)行任務(wù)交給具身智能,可以實(shí)現(xiàn)實(shí)時(shí)決策和執(zhí)行。
3. 提供個(gè)性化和適應(yīng)性服務(wù)。AI大模型可以通過學(xué)習(xí)大量用戶數(shù)據(jù)和行為模式,提供個(gè)性化服務(wù)。結(jié)合具身智能,AI Agent可以根據(jù)用戶需求,將個(gè)性化服務(wù)擴(kuò)展到物理世界中。
4. 保護(hù)用戶安全和隱私。AI大模型通常需要大量訓(xùn)練數(shù)據(jù),但這可能涉及用戶隱私。結(jié)合具身智能,可以在本地保留用戶敏感數(shù)據(jù),僅將必要信息傳輸給云端的AI Agent進(jìn)行處理,從而提供更高的安全性和隱私保護(hù)。
具身智能的作用不僅僅局限于機(jī)器人領(lǐng)域,還涉及到其他領(lǐng)域。
在機(jī)器人技術(shù)方面,具身智能使機(jī)器人能夠更好地感知周圍環(huán)境、做出智能決策,并執(zhí)行相應(yīng)的動作,以實(shí)現(xiàn)各種任務(wù)和目標(biāo)。
在自動駕駛汽車領(lǐng)域,具身智能可以使汽車能夠更好地感知道路、判斷交通情況,并做出安全的駕駛決策。
在無人機(jī)領(lǐng)域,具身智能可以使無人機(jī)能夠更好地感知空中環(huán)境、規(guī)避障礙物,并執(zhí)行精確的飛行任務(wù)。
很多公司已經(jīng)在探索具身智能,比如OpenAI不僅在其首屆開發(fā)者大會上強(qiáng)調(diào)了AI Agent的重要性,還投資了挪威的人形機(jī)器人公司1X Technologies,推動大模型與具身智能的融合。
具身智能被認(rèn)為是通往通用人工智能的重要途徑,目前有關(guān)它的研究也已經(jīng)有了很多突破性進(jìn)展,比如AI科學(xué)家李飛飛團(tuán)隊(duì)的VoxPoser系統(tǒng)。
北京航空航天大學(xué)智能無人機(jī)團(tuán)隊(duì),也提出了一種基于多模態(tài)大模型的具身智能體架構(gòu)?!癆gent as Cerebrum,Controller as Cerebellum”(智能體即大腦,控制器即小腦)的控制架構(gòu)。
論文地址:https://arxiv.org/abs/2311.15033
該架構(gòu)將智能體作為大腦這一決策生成器,專注于生成高層級的行為;控制器作為小腦這一運(yùn)動控制器,專注于將高層級的行為(如期望目標(biāo)點(diǎn))轉(zhuǎn)換成低層級的系統(tǒng)命令(如旋翼轉(zhuǎn)速)。
未來,AI Agent和具身智能的結(jié)合,將AI大模型的強(qiáng)大能力與具體場景的感知和執(zhí)行能力相結(jié)合,推動了AI大模型在實(shí)際應(yīng)用中的落地和應(yīng)用場景的豐富多樣化。
研究方向十:智能體社會
智能體社會(Agent Society)是2018年公布的計(jì)算機(jī)科學(xué)技術(shù)名詞,指的是一種基于角色和角色關(guān)系,以及義務(wù)、承諾、道義等社會學(xué)概念定義的多智能體系統(tǒng)。
在大語言模型的應(yīng)用的前提下,該概念則為使用LLM創(chuàng)建的人工智能智能體在模擬環(huán)境中相互交互,這些智能體可以像人類一樣行動、做出決策并參與社交活動。
智能體社會是人工智能代理的最高形態(tài)和目標(biāo),它是由多個(gè)人工智能體組成的一個(gè)復(fù)雜的、動態(tài)的、自組織的、自適應(yīng)的、協(xié)作的、競爭的、進(jìn)化的系統(tǒng),它可以根據(jù)自身的目標(biāo)和環(huán)境的變化,進(jìn)行一些復(fù)雜和靈活的動作和任務(wù),同時(shí)與人類和其他代理進(jìn)行一些高層次和高維度的交互和協(xié)作。
它能夠幫助我們了解人工智能體如何在類似社會的環(huán)境中協(xié)同工作和行為。這種模擬可以提供對協(xié)作、政策制定和道德考慮的見解??傮w而言,智能體社會幫助我們探索人工智能智能體的社交方面及其在現(xiàn)實(shí)和受控環(huán)境中的交互。
在這個(gè)社會系統(tǒng)中,智能體能夠根據(jù)目標(biāo)和環(huán)境變化執(zhí)行復(fù)雜靈活的任務(wù),并與人類及其他智能體進(jìn)行高級別、多維度的互動和協(xié)作。智能體社會不僅有助于人類探索和拓展物理及虛擬世界,還能增強(qiáng)和擴(kuò)展人類的能力與體驗(yàn)。
智能體社會是人類探索和拓展物理世界和虛擬世界、增強(qiáng)和擴(kuò)展人類能力和體驗(yàn)、創(chuàng)造和享受新奇和有趣的事物的重要途徑,它可以幫助人類實(shí)現(xiàn)自身或他人的價(jià)值和幸福。
智能體社會的典型應(yīng)用是人工智能實(shí)體(AI Entity)、虛擬社區(qū)(Virtual Community)、分布式系統(tǒng)(Distributed System)等,它們可以根據(jù)自身的目標(biāo)和環(huán)境的變化,進(jìn)行一些復(fù)雜和靈活的動作和任務(wù),同時(shí)與人類和其他代理進(jìn)行一些高層次和高維度的交互和協(xié)作。
長期以來,社會學(xué)家經(jīng)常進(jìn)行社會實(shí)驗(yàn),在受控環(huán)境中觀察特定的社會現(xiàn)象。著名的例子包括霍桑實(shí)驗(yàn)和斯坦福監(jiān)獄實(shí)驗(yàn)。
隨后,研究人員開始在社會模擬中使用動物,老鼠烏托邦實(shí)驗(yàn)就是一個(gè)例子。這些實(shí)驗(yàn)無一例外地使用活體作為參與者,難以進(jìn)行各種干預(yù),缺乏靈活性,時(shí)間效率低下。
研究人員和實(shí)踐者一直在設(shè)想一個(gè)交互式人工社會,在這個(gè)社會中,人類的行為可以通過可信的Agent來實(shí)現(xiàn)。
從《模擬人生》等沙盒游戲到Metaverse概念,我們可以看到“模擬社會”在人們心目中的定義:環(huán)境和在其中互動的個(gè)體。每個(gè)個(gè)體的背后可以是一個(gè)程序、一個(gè)真實(shí)的人類,也可以是一個(gè)基于LLM的Agent。
個(gè)體之間的互動,也是社會性產(chǎn)生的原因之一。多智能體協(xié)同可以組成智能體社會這一最高形態(tài)的技術(shù)社會系統(tǒng),智能體社會具有復(fù)雜、動態(tài)、自組織和自適應(yīng)的特性,能夠協(xié)作、競爭、不斷進(jìn)化。
突破多智能體的發(fā)展困境,是未來智能體社會建立的重要前提。
參考資料:
1、《A Survey on Large Language Model-based Autonomous Agents》
2、《The Rise and Potential of Large Language ModelBased Agents: A Survey》