正在閱讀:

AI Agent發(fā)展簡史,從哲學思想啟蒙到人工智能實體落地

掃一掃下載界面新聞APP

AI Agent發(fā)展簡史,從哲學思想啟蒙到人工智能實體落地

AI Agent無處不在。

圖片來源:界面新聞 范劍磊

文|王吉偉

自AutoGPT火出圈后,業(yè)內(nèi)對AI Agent的討論從沒停止過。

Lilian Weng在其六千字博文中對AI Agent的系統(tǒng)介紹,直接對當代基于大語言模型的AI Agent做了全新定義,至此“LLM+記憶+任務規(guī)劃+工具使用”就成了全新的AI Agent四件套。

搞懂了AI Agent原理,業(yè)內(nèi)外對于AI Agent探索與交流自然就更多。尤其是經(jīng)歷了一段時間的“LLM落地難”聲音的洗禮后,現(xiàn)在只要談到AI Agent,創(chuàng)業(yè)者們就會雙眼放光,投資人們也是熱情高漲,大企業(yè)們更是躍躍欲試。

由此,AI Agent成了繼LLM之后產(chǎn)學研用各界無人不知的嶄新焦點。

從人人皆談大語言模型,到張口就是AI Agent,意味著大家對LLM的關(guān)注真正落點到了應用層,如何落地也真正成了所有領域探索LLM的壓軸戲。

談到AI Agent,很多人都認為它是LLM的產(chǎn)物,畢竟大部分人接觸Agent是從基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等開源Agent程序開始的。

但了解AI Agent的人應該知道,Agent概念并不是當今的產(chǎn)物,而是伴隨人工智能而出現(xiàn)的智能實體概念不斷進化的結(jié)果。

有人認為AI Agent起源于20世紀80年代Wooldridge等人將Agent引入到人工智能,也有人認為最早的Agent概念應該是上世紀50年代阿蘭圖靈把“高度智能有機體””擴展到了人工智能。

也有論文(見復旦大學《基于大型語言模型的Agent的興起和潛力:綜述》),將最早的Agent概念追溯到了丹尼斯·狄德羅的“聰明的鸚鵡”學說。

如果從哲學啟迪的角度來看 Agent,大概可以上溯到公元前280年到公元前485年之間的莊子、亞里士多德、老子等思想家的學說與著作。

從這些觀點、學說與論文中,沿著哲學思想到人工智能實體的發(fā)展方向,大體可以梳理出一個AI Agent發(fā)展的大體脈絡。

在此基礎上,王吉頻道總結(jié)了這篇AI Agent發(fā)展簡史,以讓大家更全面地了解AI Agent。

起源:哲學啟蒙階段

“Agent”是一個有著悠久歷史的概念,在許多領域都得到了探索和解釋。

關(guān)于AI Agent的最早起源,還要從能夠啟發(fā)人類思考的哲學領域開始探尋。一些論文將其追溯到公元前350年左右的亞里士多德(Aristotle)時期,當時的一些哲學家就曾在哲學作品描述過一些擁有欲望、信念、意圖和采取行動能力的實體。

若從古代哲學家的思想著述中尋找Agent蹤跡,還可以把時間繼續(xù)上溯到公元前485年左右的中國春秋時代,老子在其對后世影響深遠的思想巨著《道德經(jīng)》中也可以看到智能體的影子。

該書在四十二章寫道:“道生一,一生二,二生三,三生萬物”。用現(xiàn)在計算科學眼光來看,它所描繪的”道”或許正是一個生生不息、包容萬物并且能夠自身演化的實體,這種實體小到種子的生發(fā)榮枯,大到宇宙天體的周天運轉(zhuǎn),這是典型的自主智能體。

時間再晚一些的莊子,在“莊周夢蝶”的時候,他不知道自己是莊子還是蝴蝶,分不清是夢境還是現(xiàn)實。如果用現(xiàn)代計算科技技術(shù)來看,這個夢可以理解為元宇宙,那么夢里的蝴蝶包括所有具備生命的物體,便都如“西部世界小鎮(zhèn)”游戲那樣的生成智能體。

時間來到18世紀,法國思想啟蒙運動時期的丹尼斯·狄德羅(Denis Diderot )也提出了類似的觀點:如果鸚鵡可以回答每個問題,它就可以被認為是聰明的。雖然狄德羅在著作中寫的是鸚鵡,但誰都能體會到這里的“鸚鵡”并不是指一只鳥,而是突出了一個深刻的概念,即高度智能的有機體可以有著類似于人類的智能。

是不是很有意思,我們認為近代人們在科技取得一定進展后才設想的AI Agent,其實古人早就思考并探索過。

或許正是因為這種思想,造就了人類對于各種工具的極致追求,誕生了春秋戰(zhàn)國時期魯班打造的能飛三天三夜的“木鵲”與墨家打造的機關(guān)城,三國時期的木牛流馬和指南車,唐代“酌酒行觴”的木人“女招待”,以及明朝幫人干活的多種“機關(guān)轉(zhuǎn)捩”木頭人。

這些人類早期出現(xiàn)的自動化工具,并非具備分析及推理能力并能夠采取行動的智能體。但自古至今一直存在的這些想法與做法,恰恰也反映了人類數(shù)千年來對于智能體或者說自動化的持續(xù)追求。

當然通過這些思想我們也能獲悉,Agent的哲學概念泛指具有自主性的概念或?qū)嶓w,它可以是人造的物體,可以是植物或動物,當然也可以是人。

發(fā)展:人工智能實體化

不管最早的Agent描述出自哪里,這些哲學思想都不同程度啟發(fā)了近代Agent的發(fā)展。

20世紀50年代,阿蘭圖靈(Alan Turing)把“高度智能有機體”概念擴展到了人工實體,并提出了著名的圖靈測試。這個測試是人工智能的基石,旨在探索機器是否可以顯示與人類相當?shù)闹悄苄袨椤?/p>

這些人工智能實體通常被稱為“Agent”,形成了人工智能系統(tǒng)的基本構(gòu)建塊。至此,人工智能領域提到的Agent,通常是指能夠使用傳感器感知其周圍環(huán)境、做出決策、然后使用致動器采取響應行動的人工實體。

隨著人工智能的發(fā)展,術(shù)語“Agent”在人工智能研究中找到了自己的位置,用來描述顯示智能行為并具有自主性、反應性、主動性和社交能力等素質(zhì)的實體。此后,Agent的探索和技術(shù)進步成為人工智能領域的焦點。

50年代末到60年代是人工智能的創(chuàng)造時期,所出現(xiàn)的編程語言、書籍及電影到現(xiàn)在還在持續(xù)影響更多的人。

在經(jīng)歷第一次人工智能寒冬后,80年代出現(xiàn)了一股人工智能熱潮。這段時間的各項研究都有所突破,來自政府等機構(gòu)的投資也開始增多,研究者對AI Agent的探索也在逐步增加。

但這股熱潮僅維持了7年,到1987年迎來了第二次人工智能寒冬。

這股寒潮延續(xù)了很多年,盡管在這期間大部分機構(gòu)都缺少資金支持,人工智能還是沿著既有技術(shù)路線剛毅發(fā)展。

其中,AI Agent就在1995年被Wooldridge和Jennings定義為一個計算機系統(tǒng):它位于某個環(huán)境中,能夠在這個環(huán)境中自主行動,以實現(xiàn)其設計目標。他們還提出AI Agent應具有自主性、反應性、社會能力與主動性等四個基本屬性。

而在AI Agent正式被經(jīng)濟學接納后,它也被進一步定義為具備感知其環(huán)境并采取行動以最大限度地提高成功機會的系統(tǒng)。根據(jù)這個定義,能夠解決特定問題的簡單程序也是“AI Agent”,所以后來能夠在各種棋類游戲中與人類對弈的機器人也算是AI Agent的一種。

AI Agent范式將AI研究定義為“智能代理研究”,它研究各種智力,超越了研究人類智能。

在AI Agent被賦予“四種基本屬性”期間,1993年到2011年,出現(xiàn)了很多基于當時AI技術(shù)且令人印象深刻的Agent類項目。

這些項目的出現(xiàn)時間和簡介如下:

  • 1997年:深藍(由IBM開發(fā))在一場廣為人知的比賽中擊敗了世界國際象棋冠軍加里·卡斯帕羅夫,成為第一個擊敗人類國際象棋冠軍的程序。
  • 1997年:Windows發(fā)布了語音識別軟件(由Dragon Systems開發(fā))。
  • 2000年:Cynthia Breazeal教授開發(fā)了第一個可以用面部模擬人類情感的機器人,它擁有眼睛、眉毛、耳朵和嘴巴,被稱為Kismet。
  • 2002年:第一個Roomba被釋放。
  • 2003年:美國宇航局將兩輛火星車(勇氣號和機遇號)降落在火星上,它們在沒有人類干預的情況下在火星表面航行。
  • 2006年:Twitter,F(xiàn)acebook和Netflix等公司開始利用AI作為其廣告和用戶體驗(UX)算法的一部分。
  • 2010年:Microsoft推出了Xbox 360 Kinect,這是第一款旨在跟蹤身體運動并將其轉(zhuǎn)化為游戲方向的游戲硬件。
  • 2011年:一臺名為Watson(由IBM創(chuàng)建)的NLP計算機被編程來回答問題,在電視轉(zhuǎn)播的智力比賽節(jié)目《Jeopardy》中戰(zhàn)勝了兩位前冠軍。
  • 2011年:蘋果發(fā)布了Siri,這是第一個流行的虛擬助手。

進化:AI Agnet的演變

伴隨著AI 技術(shù)的發(fā)展,至2000年左右,Agent已經(jīng)衍生出不少種類。

根據(jù)其感知的智能和能力程度的不同,羅素、諾維格、彼得等人在《Artificial Intelligence: A Modern Approach》一書中將AI Agent分為以下五類:

簡單反射智能體(SIMPLE REFLEX AGENTS):一種簡單的代理類型,它基于當前的感知而不是基于感知歷史的其余部分。這種類型的問題包括智力非常有限,對狀態(tài)的非感知部分一無所知,生成和存儲規(guī)模巨大以及無法適應環(huán)境變化。

基于模型的智能體(MODEL-BASED AGENTS):這種代理利用條件操作規(guī)則,通過查找允許滿足基于當前情況的條件的規(guī)則來工作,通常由兩個重要因素組成,即模型和內(nèi)部狀態(tài)。它可以通過獲取有關(guān)世界如何演變以及代理的操作如何影響世界的信息來更新代理的狀態(tài)。

基于目標的智能體(GOAL-BASED AGENTS):此類型根據(jù)其目標或理想情況做出決定,以便它可以選擇可以實現(xiàn)所需目標的操作。這種智能體可以通過搜索以及不同的計劃,具備思考一長串可能的行動來確認其實現(xiàn)目標的能力,使代理具有主動性。

基于實用程序的智能體(UTILITY-BASED AGENTS):公用事業(yè)代理的最終用途是其構(gòu)建塊,當需要從多個替代方案中采取最佳行動和決策時使用。它考慮了代理的幸福感,并給出了代理由于效用而有多幸福的想法,因此具有最大效用的行動。

學習型智能體(LEARNING AGENTS):具有從過去的經(jīng)驗中學習的能力,并根據(jù)學習能力采取行動或做出決定。它從過去獲得基礎知識,并利用這些學習來自動行動和適應。一般由四部分組成,分別是學習元素、批評者、性能元素和問題生成器。

從這些分類和基本定義而言,很多AI工具以及早期的智能程序都可以歸類為Agent的一種。包括早期的IBM用于象棋比賽的深藍以及后文出場的AlphaGO,都算是基于當時最新AI技術(shù)的AI Agent。

當代:基于LLM的智能體

在2012年的ImageNet計算機視覺挑戰(zhàn)賽中,AlexNet卷積神經(jīng)網(wǎng)絡的深度學習模型取得了第一名,深度學習從此真正在人工智能領域大顯身手。

2016年,AlphaGO(谷歌專門從事圍棋游戲的AI Agent)將擊敗歐洲冠軍(范慧)和世界冠軍(李世石),并很快被自己的兄弟(AlphaGo Zero)打敗。

2017年,谷歌提出transformer。

2018年,谷歌發(fā)布基于Transformer模型的BERT,拉開了大語言模型序幕。

2019年,谷歌AlphaStar在視頻游戲《星際爭霸2》上達到了Grandmaster,表現(xiàn)優(yōu)于除0.2%以外的所有人類玩家。

2019年,OpenAI發(fā)布GPT-2的自然語言處理模型,并分別在2020年和2022年發(fā)布了GPT-3、DALL·E 2及GPT-3.5,ChatGPT的火爆為AI Agent在大語言模型時代的發(fā)展與應用提供了新的契機。

從2023年1月開始,全球廠商發(fā)布了多個LLM,其中包括LLaMA、BLOOM、StableLM、ChatGLM等多個開源LLM。

與此同時,全球科技廠商所推出的數(shù)以千計的LLM,為AI Agent在各領域多元化應用提供了更廣泛的基礎。

2023年3月14日,OpenAI發(fā)布GPT-4。3月底,AutoGPT橫空出世,迅速火遍全球。

Auto GPT是Github上由OpenAI推出的一個免費開源項目,結(jié)合了GPT-4和GPT-3.5技術(shù),通過API創(chuàng)建完整的項目。

與ChatGPT不同的是,用戶不需要不斷對AI提問以獲得對應回答,在AutoGPT中只需為其提供一個AI名稱、描述和五個目標,AutoGPT就可以自己完成項目。它可以讀寫文件、瀏覽網(wǎng)頁、審查自己提示的結(jié)果,以及將其與所說的提示歷史記錄相結(jié)合。

AutoGPT也是OpenAI的一個實驗性項目,用以展示GPT-4語言模型的強大功能。由此開始,更多人在了解與體驗AutoGPT的同時,也逐漸認知到了AI Agent。

由此開始,基于LLM的AI Agent開始雨后春筍般涌現(xiàn),出現(xiàn)了Generative Agent、GPT-Engineer、BabyAGI、MetaGPT等多個項目,這些項目的爆發(fā)將LLM的發(fā)展與應用帶入了新階段,也將LLM的創(chuàng)業(yè)與落地引向了AI Agent。

5月,OpenAI拿下新一輪3億美元融資后,創(chuàng)始人Sam Altman透露更加關(guān)注如何使用聊天機器人來創(chuàng)建自主AI Agents,并會將相關(guān)功能部署到ChatGPT助手中。

6月,扎克伯格在全體員工會議上宣布了一系列處于不同開發(fā)階段的技術(shù),其中一個就是將發(fā)布能為用戶提供幫助或娛樂功能的具備不同個性和能力的AI Agents。

6月底,OpenAI Safety團隊負責人Lilian Weng發(fā)表了一篇名為《LLM Powered Autonomous Agents》的文章,詳細介紹了基于LLM的AI Agent,并認為這將使LLM轉(zhuǎn)為通用問題解決方案的途徑之一。

至此,人們終于對AI Agent有了全面的了解,AI Agent的神秘面紗終于被揭開。

人工智能領域?qū)τ贏I Agent的探索從未停止,在每個AI技術(shù)獲得全新突破之后都會有組織將其探索與應用納入新課題。以AlphaGo為代表的深度學習與神經(jīng)網(wǎng)絡技術(shù)嶄露頭角后,就出現(xiàn)了基于深度學習及神經(jīng)網(wǎng)絡的Agent,被應用于游戲、醫(yī)療等諸多領域。

而近幾年大語言模型獲得突破,在谷歌發(fā)布Bert及OpenAI 發(fā)布GPT-2后,很多組織都開始與其合作開始打造基于LLM的Agent。

我們還在談論AI Agent的時候,海外已經(jīng)出現(xiàn)很多AI Agent框架與產(chǎn)品。比如在8月末剛完成1500萬美金融資的Voiceflow,現(xiàn)在已是最受開發(fā)者歡迎的Al Agent構(gòu)建平臺之一,有超過13萬團隊在這里高效協(xié)同構(gòu)建自己的Al Agent。

從這類AI Agent構(gòu)建平臺來看,目前已經(jīng)有不少組織正在或者已經(jīng)構(gòu)建自己的AI Agent,且每個組織都可以面向不同業(yè)務場景的多個Agent。

王吉偉頻道也在之前盤點了全球60個AI Agent項目,目前已經(jīng)提出項目清單1.0,這個名單將會不斷迭代,也歡迎已經(jīng)推出AI Agent的團隊或者AI Agent愛好者,共同完善這份清單。(PS:回復agent+,獲取完整名單圖。)

定義:當代AI Agent特性

Lilian Weng在其博文《LLM Powered Autonomous Agents》 中,對基于LLM的AI Agent 做了系統(tǒng)綜述。

她將Agents定義為LLM、記憶(Memory)、任務規(guī)劃(Planning Skills)以及工具使用(Tool Use) 的集合,其中 LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實現(xiàn)的三個關(guān)鍵組件,并對每個模塊下實現(xiàn)路徑進行了細致的梳理和說明。

Agent系統(tǒng)架構(gòu)圖,出自博文《LLM Powered Autonomous Agents》

從文章中不難看出,目前我們所說的AI Agent本質(zhì)是一個控制LLM來解決問題的代理系統(tǒng)。LLM的核心能力是意圖理解與文本生成,如果能讓LLM學會使用工具,那么LLM本身的能力也將大大拓展。AI Agent系統(tǒng)就是這樣一種解決方案,可以讓LLM“超級大腦”真正有可能成為人類的“全能助手”。

在AI發(fā)展到大語言模型時代,很多AI工具看起來已經(jīng)具備了初步的Agent能力。雖然AI工具包括機器人和Agent都是旨在自動化任務的軟件程序,但特定的關(guān)鍵特征將AI智能體區(qū)分為更復雜的AI 軟件。

業(yè)內(nèi)認為,當AI工具具備以下特征時,就可以將該工具視為AI Agent:

  • 自治(Autonomy):AI 虛擬智能體能夠獨立執(zhí)行任務,而無需人工干預或輸入。
  • 知覺(Perception):智能體功能通過各種傳感器(如攝像頭或麥克風)感知和解釋它們所處的環(huán)境。
  • 反應(Reactivity):AI 智能體可以評估環(huán)境并做出相應的響應以實現(xiàn)其目標。
  • 推理和決策(Reasoning and decision-making):AI 智能體是智能工具,可以分析數(shù)據(jù)并做出決策以實現(xiàn)目標。他們使用推理技術(shù)和算法來處理信息并采取適當?shù)男袆印?/li>
  • 學習(Learning):可以通過機器、深度和強化學習元素和技術(shù)來學習和提高他們的表現(xiàn)。
  • 通信(Communication):AI 智能體可以使用不同的方法與其他智能體或人類進行通信,例如理解和響應自然語言、識別語音以及通過文本交換消息。
  • 以目標為導向(Goal-oriented):它們旨在實現(xiàn)特定目標,這些目標可以通過與環(huán)境的交互來預定義或?qū)W習。

在這個更為廣義的特征之下,今后AI Agent存在的環(huán)境將更加寬泛,種類也將更加繁多。

與此同時,在大語言模型的加持之下,AI Agent也逐步衍生出了自主智能體(Autonomous Agent)和生成智能體(Generative Agent)。

自主智能體如AutoGPT,能夠根據(jù)人們通過自然語言提出的需求,自動執(zhí)行任務并實現(xiàn)預期結(jié)果。在這種合作模式下,自主智能體主要是為人類服務,更像是一個高效的工具。

大家目前所聊的智能體多數(shù)是基于LLM自主智能體,它已被認為是通向通用人工智能(AGI)最有希望的道路。

如果說AutoGPT拉開了自主智能體的帷幕,今年4月份斯坦福和谷歌的研究者共同創(chuàng)建的“西部世界小鎮(zhèn)(Westworld simulation)”則開啟了生成智能體之路。小鎮(zhèn)里的25個AI Agent,每天都在樂此不疲地散步、約會、聊天、用餐以及分享當天的新聞。

生成智能體基于GPT-3 、BERT等LLM構(gòu)建,以自然語言存儲代理體驗的完整記錄。生成智能體體系結(jié)構(gòu)包括三個主要組件:觀察、規(guī)劃和反思。這些組件協(xié)同工作,使生成代理能夠生成反映其個性、偏好、技能和目標的現(xiàn)實且一致的行為。此外,此體系結(jié)構(gòu)允許用戶、代理和其他代理之間進行自然語言通信。

簡單的講,生成智能體就像美劇《西部世界》中的人形機器人以及《失控玩家》中的智能NPC,它們在同一環(huán)境中生活,擁有自己的記憶和目標,不僅與人類交往,還會與其他機器人互動。

未來:AI Agent無處不在

Agent的核心在于LLM,可以說大語言模型的能力決定了AI Agent的能力半徑,所以目前基于GPT-4的Agent表現(xiàn)得更加智能。未來隨著更多大語言模型的完善、迭代與優(yōu)化,基于這些LLM構(gòu)建的Agent自然能力也會更強。

以后的AI Agnet,將主要呈現(xiàn)以下幾種特征:

  • 更加智能、自主并擁有更強適應性。將能夠?qū)W習和改進自己的行為,根據(jù)不同的情境和用戶做出最優(yōu)的決策,以及處理不確定性和復雜性。
  • 更加人性化、友好和可信賴。能夠理解和表達情感,建立和維持與用戶的關(guān)系,以及遵守道德和社會準則。
  • 更加多樣化、專業(yè)化和協(xié)作化。能夠針對不同的領域和任務提供專業(yè)的服務或幫助,以及與其他AI Agent或人類進行有效的協(xié)作和協(xié)調(diào)。

Agent將會成為大模型在各行業(yè)及領域應用的主體形式,未來LLM的開發(fā)與應用的都將圍繞Agent以工具或者助手的形式呈現(xiàn)。隨著Agent以標準化產(chǎn)品形態(tài)出現(xiàn),廣大組織引入與應用AI Agent將變得更加簡單。

相關(guān)企業(yè)與組織也可以基于引入的大語言模型或者垂直領域模型構(gòu)建面向領域的Agent,以幫助客戶高效釋放LLM的能力。也可以構(gòu)建內(nèi)部或者面向客戶的AI Agent平臺及社區(qū),方便自身及客戶運營中隨時構(gòu)建所需的Agent。

更多的AI Agent構(gòu)建平臺,也將促使大量Agent的出現(xiàn),個人構(gòu)建與應用Agent也將更加容易。未來只要大家愿意,隨時都可以通過各種Agent平臺打造適合自己的個性化Agent,通過更加個性化的功能與服務增強溝通和協(xié)作、拓展知識和技能等。

甚至還能在不同業(yè)務場景構(gòu)建多個不同的Agent,并讓這些Agent協(xié)同工作,多Agent系統(tǒng)協(xié)同可以輸出更加準確的結(jié)果以及完成更加復雜的任務。

AI Agent無視行業(yè)與業(yè)務場景,只要能應用LLM的地方都可以構(gòu)建相應的Agent。它可以應用于各行業(yè),例如教育、醫(yī)療、金融、制造、娛樂等,幫助提高效率、降低成本、創(chuàng)造價值。

未來,AI Agent可能會更加智能、自適應、多樣化,能夠處理更復雜的問題和場景,與人類形成更緊密的合作和共生。

如Lilian Weng在博文中所說,AI Agent可以讓LLM從“超級大腦”進化為人類的“全能助手”,這意味著基于LLM的Agent助手以后將會服務更多的人與組織。

隨著AI Agent的廣泛應用,大語言模型時代的人機交互也將升級人類與AI Agent的自動化合作體系。這種新型人機合作可以稱之為人機智能體,它將推動人類社會的生產(chǎn)結(jié)構(gòu)進一步升級,進而影響社會的各個方面。

同時,一個具備交流能力并能自主/自動執(zhí)行任務的智能網(wǎng)絡將是互聯(lián)網(wǎng)的下一階段,AI Agent將是人類與之交互和執(zhí)行任務的智能工具。

未來的趨勢,AI agent大概率會出現(xiàn)在人類工作、學習、生活、娛樂的各個場景中,人人都將配備一個基于AI agent系統(tǒng)的智能助手,《鋼鐵俠》《星際穿越》《星球大戰(zhàn)》等電影中人機協(xié)同的場景將會真正變成現(xiàn)實。

這,又將是一個多大量級的市場。

參考資料:

復旦大學NLP團隊論文《基于大型語言模型的Agent的興起和潛力:綜述》

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

新天鋼

90
  • 量化巨頭Two Sigma高層大改革,關(guān)系不睦的兩位創(chuàng)始人退出日常管理
  • 美國ITC正式對光動力治療系統(tǒng)及其組件和與之結(jié)合使用的藥品啟動337調(diào)查

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI Agent發(fā)展簡史,從哲學思想啟蒙到人工智能實體落地

AI Agent無處不在。

圖片來源:界面新聞 范劍磊

文|王吉偉

自AutoGPT火出圈后,業(yè)內(nèi)對AI Agent的討論從沒停止過。

Lilian Weng在其六千字博文中對AI Agent的系統(tǒng)介紹,直接對當代基于大語言模型的AI Agent做了全新定義,至此“LLM+記憶+任務規(guī)劃+工具使用”就成了全新的AI Agent四件套。

搞懂了AI Agent原理,業(yè)內(nèi)外對于AI Agent探索與交流自然就更多。尤其是經(jīng)歷了一段時間的“LLM落地難”聲音的洗禮后,現(xiàn)在只要談到AI Agent,創(chuàng)業(yè)者們就會雙眼放光,投資人們也是熱情高漲,大企業(yè)們更是躍躍欲試。

由此,AI Agent成了繼LLM之后產(chǎn)學研用各界無人不知的嶄新焦點。

從人人皆談大語言模型,到張口就是AI Agent,意味著大家對LLM的關(guān)注真正落點到了應用層,如何落地也真正成了所有領域探索LLM的壓軸戲。

談到AI Agent,很多人都認為它是LLM的產(chǎn)物,畢竟大部分人接觸Agent是從基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等開源Agent程序開始的。

但了解AI Agent的人應該知道,Agent概念并不是當今的產(chǎn)物,而是伴隨人工智能而出現(xiàn)的智能實體概念不斷進化的結(jié)果。

有人認為AI Agent起源于20世紀80年代Wooldridge等人將Agent引入到人工智能,也有人認為最早的Agent概念應該是上世紀50年代阿蘭圖靈把“高度智能有機體””擴展到了人工智能。

也有論文(見復旦大學《基于大型語言模型的Agent的興起和潛力:綜述》),將最早的Agent概念追溯到了丹尼斯·狄德羅的“聰明的鸚鵡”學說。

如果從哲學啟迪的角度來看 Agent,大概可以上溯到公元前280年到公元前485年之間的莊子、亞里士多德、老子等思想家的學說與著作。

從這些觀點、學說與論文中,沿著哲學思想到人工智能實體的發(fā)展方向,大體可以梳理出一個AI Agent發(fā)展的大體脈絡。

在此基礎上,王吉頻道總結(jié)了這篇AI Agent發(fā)展簡史,以讓大家更全面地了解AI Agent。

起源:哲學啟蒙階段

“Agent”是一個有著悠久歷史的概念,在許多領域都得到了探索和解釋。

關(guān)于AI Agent的最早起源,還要從能夠啟發(fā)人類思考的哲學領域開始探尋。一些論文將其追溯到公元前350年左右的亞里士多德(Aristotle)時期,當時的一些哲學家就曾在哲學作品描述過一些擁有欲望、信念、意圖和采取行動能力的實體。

若從古代哲學家的思想著述中尋找Agent蹤跡,還可以把時間繼續(xù)上溯到公元前485年左右的中國春秋時代,老子在其對后世影響深遠的思想巨著《道德經(jīng)》中也可以看到智能體的影子。

該書在四十二章寫道:“道生一,一生二,二生三,三生萬物”。用現(xiàn)在計算科學眼光來看,它所描繪的”道”或許正是一個生生不息、包容萬物并且能夠自身演化的實體,這種實體小到種子的生發(fā)榮枯,大到宇宙天體的周天運轉(zhuǎn),這是典型的自主智能體。

時間再晚一些的莊子,在“莊周夢蝶”的時候,他不知道自己是莊子還是蝴蝶,分不清是夢境還是現(xiàn)實。如果用現(xiàn)代計算科技技術(shù)來看,這個夢可以理解為元宇宙,那么夢里的蝴蝶包括所有具備生命的物體,便都如“西部世界小鎮(zhèn)”游戲那樣的生成智能體。

時間來到18世紀,法國思想啟蒙運動時期的丹尼斯·狄德羅(Denis Diderot )也提出了類似的觀點:如果鸚鵡可以回答每個問題,它就可以被認為是聰明的。雖然狄德羅在著作中寫的是鸚鵡,但誰都能體會到這里的“鸚鵡”并不是指一只鳥,而是突出了一個深刻的概念,即高度智能的有機體可以有著類似于人類的智能。

是不是很有意思,我們認為近代人們在科技取得一定進展后才設想的AI Agent,其實古人早就思考并探索過。

或許正是因為這種思想,造就了人類對于各種工具的極致追求,誕生了春秋戰(zhàn)國時期魯班打造的能飛三天三夜的“木鵲”與墨家打造的機關(guān)城,三國時期的木牛流馬和指南車,唐代“酌酒行觴”的木人“女招待”,以及明朝幫人干活的多種“機關(guān)轉(zhuǎn)捩”木頭人。

這些人類早期出現(xiàn)的自動化工具,并非具備分析及推理能力并能夠采取行動的智能體。但自古至今一直存在的這些想法與做法,恰恰也反映了人類數(shù)千年來對于智能體或者說自動化的持續(xù)追求。

當然通過這些思想我們也能獲悉,Agent的哲學概念泛指具有自主性的概念或?qū)嶓w,它可以是人造的物體,可以是植物或動物,當然也可以是人。

發(fā)展:人工智能實體化

不管最早的Agent描述出自哪里,這些哲學思想都不同程度啟發(fā)了近代Agent的發(fā)展。

20世紀50年代,阿蘭圖靈(Alan Turing)把“高度智能有機體”概念擴展到了人工實體,并提出了著名的圖靈測試。這個測試是人工智能的基石,旨在探索機器是否可以顯示與人類相當?shù)闹悄苄袨椤?/p>

這些人工智能實體通常被稱為“Agent”,形成了人工智能系統(tǒng)的基本構(gòu)建塊。至此,人工智能領域提到的Agent,通常是指能夠使用傳感器感知其周圍環(huán)境、做出決策、然后使用致動器采取響應行動的人工實體。

隨著人工智能的發(fā)展,術(shù)語“Agent”在人工智能研究中找到了自己的位置,用來描述顯示智能行為并具有自主性、反應性、主動性和社交能力等素質(zhì)的實體。此后,Agent的探索和技術(shù)進步成為人工智能領域的焦點。

50年代末到60年代是人工智能的創(chuàng)造時期,所出現(xiàn)的編程語言、書籍及電影到現(xiàn)在還在持續(xù)影響更多的人。

在經(jīng)歷第一次人工智能寒冬后,80年代出現(xiàn)了一股人工智能熱潮。這段時間的各項研究都有所突破,來自政府等機構(gòu)的投資也開始增多,研究者對AI Agent的探索也在逐步增加。

但這股熱潮僅維持了7年,到1987年迎來了第二次人工智能寒冬。

這股寒潮延續(xù)了很多年,盡管在這期間大部分機構(gòu)都缺少資金支持,人工智能還是沿著既有技術(shù)路線剛毅發(fā)展。

其中,AI Agent就在1995年被Wooldridge和Jennings定義為一個計算機系統(tǒng):它位于某個環(huán)境中,能夠在這個環(huán)境中自主行動,以實現(xiàn)其設計目標。他們還提出AI Agent應具有自主性、反應性、社會能力與主動性等四個基本屬性。

而在AI Agent正式被經(jīng)濟學接納后,它也被進一步定義為具備感知其環(huán)境并采取行動以最大限度地提高成功機會的系統(tǒng)。根據(jù)這個定義,能夠解決特定問題的簡單程序也是“AI Agent”,所以后來能夠在各種棋類游戲中與人類對弈的機器人也算是AI Agent的一種。

AI Agent范式將AI研究定義為“智能代理研究”,它研究各種智力,超越了研究人類智能。

在AI Agent被賦予“四種基本屬性”期間,1993年到2011年,出現(xiàn)了很多基于當時AI技術(shù)且令人印象深刻的Agent類項目。

這些項目的出現(xiàn)時間和簡介如下:

  • 1997年:深藍(由IBM開發(fā))在一場廣為人知的比賽中擊敗了世界國際象棋冠軍加里·卡斯帕羅夫,成為第一個擊敗人類國際象棋冠軍的程序。
  • 1997年:Windows發(fā)布了語音識別軟件(由Dragon Systems開發(fā))。
  • 2000年:Cynthia Breazeal教授開發(fā)了第一個可以用面部模擬人類情感的機器人,它擁有眼睛、眉毛、耳朵和嘴巴,被稱為Kismet。
  • 2002年:第一個Roomba被釋放。
  • 2003年:美國宇航局將兩輛火星車(勇氣號和機遇號)降落在火星上,它們在沒有人類干預的情況下在火星表面航行。
  • 2006年:Twitter,F(xiàn)acebook和Netflix等公司開始利用AI作為其廣告和用戶體驗(UX)算法的一部分。
  • 2010年:Microsoft推出了Xbox 360 Kinect,這是第一款旨在跟蹤身體運動并將其轉(zhuǎn)化為游戲方向的游戲硬件。
  • 2011年:一臺名為Watson(由IBM創(chuàng)建)的NLP計算機被編程來回答問題,在電視轉(zhuǎn)播的智力比賽節(jié)目《Jeopardy》中戰(zhàn)勝了兩位前冠軍。
  • 2011年:蘋果發(fā)布了Siri,這是第一個流行的虛擬助手。

進化:AI Agnet的演變

伴隨著AI 技術(shù)的發(fā)展,至2000年左右,Agent已經(jīng)衍生出不少種類。

根據(jù)其感知的智能和能力程度的不同,羅素、諾維格、彼得等人在《Artificial Intelligence: A Modern Approach》一書中將AI Agent分為以下五類:

簡單反射智能體(SIMPLE REFLEX AGENTS):一種簡單的代理類型,它基于當前的感知而不是基于感知歷史的其余部分。這種類型的問題包括智力非常有限,對狀態(tài)的非感知部分一無所知,生成和存儲規(guī)模巨大以及無法適應環(huán)境變化。

基于模型的智能體(MODEL-BASED AGENTS):這種代理利用條件操作規(guī)則,通過查找允許滿足基于當前情況的條件的規(guī)則來工作,通常由兩個重要因素組成,即模型和內(nèi)部狀態(tài)。它可以通過獲取有關(guān)世界如何演變以及代理的操作如何影響世界的信息來更新代理的狀態(tài)。

基于目標的智能體(GOAL-BASED AGENTS):此類型根據(jù)其目標或理想情況做出決定,以便它可以選擇可以實現(xiàn)所需目標的操作。這種智能體可以通過搜索以及不同的計劃,具備思考一長串可能的行動來確認其實現(xiàn)目標的能力,使代理具有主動性。

基于實用程序的智能體(UTILITY-BASED AGENTS):公用事業(yè)代理的最終用途是其構(gòu)建塊,當需要從多個替代方案中采取最佳行動和決策時使用。它考慮了代理的幸福感,并給出了代理由于效用而有多幸福的想法,因此具有最大效用的行動。

學習型智能體(LEARNING AGENTS):具有從過去的經(jīng)驗中學習的能力,并根據(jù)學習能力采取行動或做出決定。它從過去獲得基礎知識,并利用這些學習來自動行動和適應。一般由四部分組成,分別是學習元素、批評者、性能元素和問題生成器。

從這些分類和基本定義而言,很多AI工具以及早期的智能程序都可以歸類為Agent的一種。包括早期的IBM用于象棋比賽的深藍以及后文出場的AlphaGO,都算是基于當時最新AI技術(shù)的AI Agent。

當代:基于LLM的智能體

在2012年的ImageNet計算機視覺挑戰(zhàn)賽中,AlexNet卷積神經(jīng)網(wǎng)絡的深度學習模型取得了第一名,深度學習從此真正在人工智能領域大顯身手。

2016年,AlphaGO(谷歌專門從事圍棋游戲的AI Agent)將擊敗歐洲冠軍(范慧)和世界冠軍(李世石),并很快被自己的兄弟(AlphaGo Zero)打敗。

2017年,谷歌提出transformer。

2018年,谷歌發(fā)布基于Transformer模型的BERT,拉開了大語言模型序幕。

2019年,谷歌AlphaStar在視頻游戲《星際爭霸2》上達到了Grandmaster,表現(xiàn)優(yōu)于除0.2%以外的所有人類玩家。

2019年,OpenAI發(fā)布GPT-2的自然語言處理模型,并分別在2020年和2022年發(fā)布了GPT-3、DALL·E 2及GPT-3.5,ChatGPT的火爆為AI Agent在大語言模型時代的發(fā)展與應用提供了新的契機。

從2023年1月開始,全球廠商發(fā)布了多個LLM,其中包括LLaMA、BLOOM、StableLM、ChatGLM等多個開源LLM。

與此同時,全球科技廠商所推出的數(shù)以千計的LLM,為AI Agent在各領域多元化應用提供了更廣泛的基礎。

2023年3月14日,OpenAI發(fā)布GPT-4。3月底,AutoGPT橫空出世,迅速火遍全球。

Auto GPT是Github上由OpenAI推出的一個免費開源項目,結(jié)合了GPT-4和GPT-3.5技術(shù),通過API創(chuàng)建完整的項目。

與ChatGPT不同的是,用戶不需要不斷對AI提問以獲得對應回答,在AutoGPT中只需為其提供一個AI名稱、描述和五個目標,AutoGPT就可以自己完成項目。它可以讀寫文件、瀏覽網(wǎng)頁、審查自己提示的結(jié)果,以及將其與所說的提示歷史記錄相結(jié)合。

AutoGPT也是OpenAI的一個實驗性項目,用以展示GPT-4語言模型的強大功能。由此開始,更多人在了解與體驗AutoGPT的同時,也逐漸認知到了AI Agent。

由此開始,基于LLM的AI Agent開始雨后春筍般涌現(xiàn),出現(xiàn)了Generative Agent、GPT-Engineer、BabyAGI、MetaGPT等多個項目,這些項目的爆發(fā)將LLM的發(fā)展與應用帶入了新階段,也將LLM的創(chuàng)業(yè)與落地引向了AI Agent。

5月,OpenAI拿下新一輪3億美元融資后,創(chuàng)始人Sam Altman透露更加關(guān)注如何使用聊天機器人來創(chuàng)建自主AI Agents,并會將相關(guān)功能部署到ChatGPT助手中。

6月,扎克伯格在全體員工會議上宣布了一系列處于不同開發(fā)階段的技術(shù),其中一個就是將發(fā)布能為用戶提供幫助或娛樂功能的具備不同個性和能力的AI Agents。

6月底,OpenAI Safety團隊負責人Lilian Weng發(fā)表了一篇名為《LLM Powered Autonomous Agents》的文章,詳細介紹了基于LLM的AI Agent,并認為這將使LLM轉(zhuǎn)為通用問題解決方案的途徑之一。

至此,人們終于對AI Agent有了全面的了解,AI Agent的神秘面紗終于被揭開。

人工智能領域?qū)τ贏I Agent的探索從未停止,在每個AI技術(shù)獲得全新突破之后都會有組織將其探索與應用納入新課題。以AlphaGo為代表的深度學習與神經(jīng)網(wǎng)絡技術(shù)嶄露頭角后,就出現(xiàn)了基于深度學習及神經(jīng)網(wǎng)絡的Agent,被應用于游戲、醫(yī)療等諸多領域。

而近幾年大語言模型獲得突破,在谷歌發(fā)布Bert及OpenAI 發(fā)布GPT-2后,很多組織都開始與其合作開始打造基于LLM的Agent。

我們還在談論AI Agent的時候,海外已經(jīng)出現(xiàn)很多AI Agent框架與產(chǎn)品。比如在8月末剛完成1500萬美金融資的Voiceflow,現(xiàn)在已是最受開發(fā)者歡迎的Al Agent構(gòu)建平臺之一,有超過13萬團隊在這里高效協(xié)同構(gòu)建自己的Al Agent。

從這類AI Agent構(gòu)建平臺來看,目前已經(jīng)有不少組織正在或者已經(jīng)構(gòu)建自己的AI Agent,且每個組織都可以面向不同業(yè)務場景的多個Agent。

王吉偉頻道也在之前盤點了全球60個AI Agent項目,目前已經(jīng)提出項目清單1.0,這個名單將會不斷迭代,也歡迎已經(jīng)推出AI Agent的團隊或者AI Agent愛好者,共同完善這份清單。(PS:回復agent+,獲取完整名單圖。)

定義:當代AI Agent特性

Lilian Weng在其博文《LLM Powered Autonomous Agents》 中,對基于LLM的AI Agent 做了系統(tǒng)綜述。

她將Agents定義為LLM、記憶(Memory)、任務規(guī)劃(Planning Skills)以及工具使用(Tool Use) 的集合,其中 LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實現(xiàn)的三個關(guān)鍵組件,并對每個模塊下實現(xiàn)路徑進行了細致的梳理和說明。

Agent系統(tǒng)架構(gòu)圖,出自博文《LLM Powered Autonomous Agents》

從文章中不難看出,目前我們所說的AI Agent本質(zhì)是一個控制LLM來解決問題的代理系統(tǒng)。LLM的核心能力是意圖理解與文本生成,如果能讓LLM學會使用工具,那么LLM本身的能力也將大大拓展。AI Agent系統(tǒng)就是這樣一種解決方案,可以讓LLM“超級大腦”真正有可能成為人類的“全能助手”。

在AI發(fā)展到大語言模型時代,很多AI工具看起來已經(jīng)具備了初步的Agent能力。雖然AI工具包括機器人和Agent都是旨在自動化任務的軟件程序,但特定的關(guān)鍵特征將AI智能體區(qū)分為更復雜的AI 軟件。

業(yè)內(nèi)認為,當AI工具具備以下特征時,就可以將該工具視為AI Agent:

  • 自治(Autonomy):AI 虛擬智能體能夠獨立執(zhí)行任務,而無需人工干預或輸入。
  • 知覺(Perception):智能體功能通過各種傳感器(如攝像頭或麥克風)感知和解釋它們所處的環(huán)境。
  • 反應(Reactivity):AI 智能體可以評估環(huán)境并做出相應的響應以實現(xiàn)其目標。
  • 推理和決策(Reasoning and decision-making):AI 智能體是智能工具,可以分析數(shù)據(jù)并做出決策以實現(xiàn)目標。他們使用推理技術(shù)和算法來處理信息并采取適當?shù)男袆印?/li>
  • 學習(Learning):可以通過機器、深度和強化學習元素和技術(shù)來學習和提高他們的表現(xiàn)。
  • 通信(Communication):AI 智能體可以使用不同的方法與其他智能體或人類進行通信,例如理解和響應自然語言、識別語音以及通過文本交換消息。
  • 以目標為導向(Goal-oriented):它們旨在實現(xiàn)特定目標,這些目標可以通過與環(huán)境的交互來預定義或?qū)W習。

在這個更為廣義的特征之下,今后AI Agent存在的環(huán)境將更加寬泛,種類也將更加繁多。

與此同時,在大語言模型的加持之下,AI Agent也逐步衍生出了自主智能體(Autonomous Agent)和生成智能體(Generative Agent)。

自主智能體如AutoGPT,能夠根據(jù)人們通過自然語言提出的需求,自動執(zhí)行任務并實現(xiàn)預期結(jié)果。在這種合作模式下,自主智能體主要是為人類服務,更像是一個高效的工具。

大家目前所聊的智能體多數(shù)是基于LLM自主智能體,它已被認為是通向通用人工智能(AGI)最有希望的道路。

如果說AutoGPT拉開了自主智能體的帷幕,今年4月份斯坦福和谷歌的研究者共同創(chuàng)建的“西部世界小鎮(zhèn)(Westworld simulation)”則開啟了生成智能體之路。小鎮(zhèn)里的25個AI Agent,每天都在樂此不疲地散步、約會、聊天、用餐以及分享當天的新聞。

生成智能體基于GPT-3 、BERT等LLM構(gòu)建,以自然語言存儲代理體驗的完整記錄。生成智能體體系結(jié)構(gòu)包括三個主要組件:觀察、規(guī)劃和反思。這些組件協(xié)同工作,使生成代理能夠生成反映其個性、偏好、技能和目標的現(xiàn)實且一致的行為。此外,此體系結(jié)構(gòu)允許用戶、代理和其他代理之間進行自然語言通信。

簡單的講,生成智能體就像美劇《西部世界》中的人形機器人以及《失控玩家》中的智能NPC,它們在同一環(huán)境中生活,擁有自己的記憶和目標,不僅與人類交往,還會與其他機器人互動。

未來:AI Agent無處不在

Agent的核心在于LLM,可以說大語言模型的能力決定了AI Agent的能力半徑,所以目前基于GPT-4的Agent表現(xiàn)得更加智能。未來隨著更多大語言模型的完善、迭代與優(yōu)化,基于這些LLM構(gòu)建的Agent自然能力也會更強。

以后的AI Agnet,將主要呈現(xiàn)以下幾種特征:

  • 更加智能、自主并擁有更強適應性。將能夠?qū)W習和改進自己的行為,根據(jù)不同的情境和用戶做出最優(yōu)的決策,以及處理不確定性和復雜性。
  • 更加人性化、友好和可信賴。能夠理解和表達情感,建立和維持與用戶的關(guān)系,以及遵守道德和社會準則。
  • 更加多樣化、專業(yè)化和協(xié)作化。能夠針對不同的領域和任務提供專業(yè)的服務或幫助,以及與其他AI Agent或人類進行有效的協(xié)作和協(xié)調(diào)。

Agent將會成為大模型在各行業(yè)及領域應用的主體形式,未來LLM的開發(fā)與應用的都將圍繞Agent以工具或者助手的形式呈現(xiàn)。隨著Agent以標準化產(chǎn)品形態(tài)出現(xiàn),廣大組織引入與應用AI Agent將變得更加簡單。

相關(guān)企業(yè)與組織也可以基于引入的大語言模型或者垂直領域模型構(gòu)建面向領域的Agent,以幫助客戶高效釋放LLM的能力。也可以構(gòu)建內(nèi)部或者面向客戶的AI Agent平臺及社區(qū),方便自身及客戶運營中隨時構(gòu)建所需的Agent。

更多的AI Agent構(gòu)建平臺,也將促使大量Agent的出現(xiàn),個人構(gòu)建與應用Agent也將更加容易。未來只要大家愿意,隨時都可以通過各種Agent平臺打造適合自己的個性化Agent,通過更加個性化的功能與服務增強溝通和協(xié)作、拓展知識和技能等。

甚至還能在不同業(yè)務場景構(gòu)建多個不同的Agent,并讓這些Agent協(xié)同工作,多Agent系統(tǒng)協(xié)同可以輸出更加準確的結(jié)果以及完成更加復雜的任務。

AI Agent無視行業(yè)與業(yè)務場景,只要能應用LLM的地方都可以構(gòu)建相應的Agent。它可以應用于各行業(yè),例如教育、醫(yī)療、金融、制造、娛樂等,幫助提高效率、降低成本、創(chuàng)造價值。

未來,AI Agent可能會更加智能、自適應、多樣化,能夠處理更復雜的問題和場景,與人類形成更緊密的合作和共生。

如Lilian Weng在博文中所說,AI Agent可以讓LLM從“超級大腦”進化為人類的“全能助手”,這意味著基于LLM的Agent助手以后將會服務更多的人與組織。

隨著AI Agent的廣泛應用,大語言模型時代的人機交互也將升級人類與AI Agent的自動化合作體系。這種新型人機合作可以稱之為人機智能體,它將推動人類社會的生產(chǎn)結(jié)構(gòu)進一步升級,進而影響社會的各個方面。

同時,一個具備交流能力并能自主/自動執(zhí)行任務的智能網(wǎng)絡將是互聯(lián)網(wǎng)的下一階段,AI Agent將是人類與之交互和執(zhí)行任務的智能工具。

未來的趨勢,AI agent大概率會出現(xiàn)在人類工作、學習、生活、娛樂的各個場景中,人人都將配備一個基于AI agent系統(tǒng)的智能助手,《鋼鐵俠》《星際穿越》《星球大戰(zhàn)》等電影中人機協(xié)同的場景將會真正變成現(xiàn)實。

這,又將是一個多大量級的市場。

參考資料:

復旦大學NLP團隊論文《基于大型語言模型的Agent的興起和潛力:綜述》

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。