文|王吉偉
- OpenAI推出的GPTs是不是Agent?為何能讓很多AI智能體項目半年白干?
- 很多人說GPTs不是真正意義上的AI Agent,為何卻被稱作Agent殺手?
- OpenAI宮斗100+小時期間數(shù)量超兩萬的GPTs,真會成為AI Agent殺手嗎?
- GPTs到底是什么?與AI Agent有什么區(qū)別?為什么說它會殺死AI Agent?
- 為何“準Agent”GPTs對真AI Agent造成那么大沖擊?真的會殺死AI智能體嗎?
- 說GPTs會殺死AI Agent有些危言聳聽,Agent未來生態(tài)注定百花齊放
OpenAI的宮斗大戲已經(jīng)告一段落,精彩劇情的余韻仍在久久回蕩。
波瀾起伏的劇情,精湛的演技,硅谷大佬的客串,100多個小時的演繹,締造了這部足以載入史冊的AGI成長大戲。劇中角色則被賦予更多傳奇色彩,比如Sam Altman一度被視作當年被董事會罷免的喬布斯,而Ilya Sutskever也被貼上了“AGI衛(wèi)道者”的標簽。
這場宮斗的真正根源,到現(xiàn)在還在市里坊間被人猜測。其中最有可能的一個原因是,GPT已經(jīng)發(fā)展成為能夠威脅人類的AI,所以衛(wèi)道者Ilya要出來干預,不惜使用各種手段阻止OpenAI帶有重大危險因素的超高速成長。
Sam要通過商業(yè)手段推動OpenAI疾馳,Ilya則要確保AI在監(jiān)管之下可控發(fā)展。
兩人都是AGI的篤信者,發(fā)展理念卻在OpenAI的第一個開發(fā)者大會之后產(chǎn)生了強烈沖突。Sam相當激進,Ilya過于謹慎,于是矛盾一觸即發(fā),而導火索可能恰恰就在于GPTs。
從Sam被開除開始,大家都在關注OpenAI宮斗這幾天,GPTs仍舊以超高的速度發(fā)展,目前GPTs的數(shù)量已超過2萬。超低的創(chuàng)建門檻和APP Store一樣的商業(yè)模型,必會讓OpenAI快速構建GPTs生態(tài)。
但另一方面,目前這些GPTs還存在不少問題。就以安全可言,99%的GPTs都在裸奔,幾句話就能套取知識庫文件。如果這些GPTs都在對人類存在潛在威脅的大語言模型之上運行,后果可想而知。
當然,這些仍然還是猜測,也不是本文討論的重點。
事實上,GPTs推出后在創(chuàng)投領域引起更多不滿的,是OpenAI為何既要做底層技術又要做上層應用。這直接殺死了相當數(shù)量的基于GPT的Agent相關項目,當然大量項目都是Sam所說的“簡單模仿、套殼OpenAI”公司的項目。
不管這些項目是不是在套殼OpenAI,GPTs以及Assitant API的推出,確實對第三方Agent構建框架及工具造成了不小的沖擊,就連Langchain、LlamaIndex等都已被看作一無是處了。
有意思的是,一些人并不認為GPTs算是真正的Agent,因為現(xiàn)在的大多數(shù)GPTs僅是實現(xiàn)特定功能的聊天機器人。這樣的東西,又怎能取代或者殺死結構完整功能強大的獨立Agent呢?
那么,GPTs 到底算不算Agent?GPTs的推出是否真的意味著開發(fā)者幾個月來構建的Agent產(chǎn)品和開源項目都會死亡?GPTs是否真的有能力殺死所有AI Agent?
本文,王吉偉頻道就跟大家聊聊這些。
從GPTs說起
OpenAI官方對GPTs的定義是,用戶為特定目的創(chuàng)建的ChatGPT版本。
任何人都可以創(chuàng)建量身定制的GPTs,用于日常生活、特定任務、工作或家庭中獲得更多便利以及提升效率,也可以制作僅供公司內部使用的GPTs,比如幫教孩子數(shù)學或者設計貼紙、學習棋盤游戲、搜索資源、數(shù)據(jù)分析等。
此外,用戶還可以分享創(chuàng)建的GPTs,以讓更多人使用它們提升各種場景的使用效率。想要詳細了解GPTs,大家可以到OpenAI官方博客查看《Introducing GPTs》這篇博文。(沒有魔法的朋友不用急,王吉偉頻道準備了中文版,可以在后臺發(fā)消息 GPTs 獲取。)
要構建一個GPTs也非常簡單,不用代碼,只需與GPT Builder(OpenAI推出的GPTs創(chuàng)建器)進行對話,并為其提供說明和其他知識,再選擇GPTs能夠執(zhí)行的搜索網(wǎng)絡、制作圖像、分析數(shù)據(jù)等操作,一個GPTs就創(chuàng)建完成了。
GPTs可以做很多事情,比如學習棋盤游戲的規(guī)則、幫孩子學習或者設計貼紙。還可以把GPT和外部服務連接起來,讓它們訪問更多的信息和功能。例如,通過連接翻譯API,GPT就可以通過訪問數(shù)據(jù)庫獲取實時數(shù)據(jù)進行分析,實現(xiàn)用多種語言交流。
為了讓用戶感受GPTs的魅力,OpenAI官方推出了16個GPTs,用戶可以直接使用這些GPTs。在構建GPTs時,用戶也可以選擇是否使用DALL-E圖片生成或者代碼解釋器。
這16個GPTs如下:
- DALL·E GPT:讓你的想象變成圖像。
- Data Analysis:放入任何文件,幫助分析和可視化您的數(shù)據(jù)。
- ChatGPT Classic:最新版本的GPT-4,沒有附加功能?!?/li>
- Game Time:快速向任何年齡的玩家解釋棋盤游戲或紙牌游戲。
- The Negotiator:幫助你為自己辯護并獲得更好的結果,成為一名出色的談判者。
- Creative Writing Coach:渴望閱讀您的作品并為您提供反饋以提高您的技能。
- Cosmic Dream:有遠見的數(shù)字奇跡畫家。
- Tech Support Advisor:從設置打印機到對設備進行故障排除,逐步為您提供幫助。
- Coloring Book Hero:把任何想法變成異想天開的圖畫書頁。
- Laundry Buddy:回答任何關于污漬、設置、分類和一切洗衣的事情。
- Sous Chef:根據(jù)你喜歡的食物和擁有的食材給你食譜。
- Sticker Whiz:把你最瘋狂的夢想變成模切貼紙,直接送到你家門口。
- Math Mentor:幫助父母幫助他們的孩子學習數(shù)學。
- Hot Mods:把你的形象修改成真正狂野的東西。
- Mocktail Mixologist:用你手頭的任何食材制作無酒精雞尾酒食譜,讓任何派對都大放異彩。
- genz 4 meme: 幫你理解行話和最新的表情包。
OpenAI推出這些不同的GPTs,不僅對外展示了GPT 模型的技術實力,也意味著個性化AI助手將成為我們日常生活中不可或缺的一部分,在未來滿足我們獨特的需求和興趣。
從現(xiàn)在已經(jīng)推出的各種GPTs來看,有的比如使用Zapier插件的GPTs已經(jīng)能夠處理稍微復雜一些的業(yè)務流程,但大部分GPTs僅是聊天機器人,還無法實現(xiàn)復雜任務的執(zhí)行。
所以,GPTs 到底算不算Agent呢?
從Agent定義及架構看GPTs
OpenAI開發(fā)者大會以后,比爾?蓋茨(Bill Gates)在其博客發(fā)表了一篇名為《AI is about to completely change how you use computers》的文章,并很快刷屏國內外。(后臺回復 GPTs,獲取該文章PDF漢化版。)
在這篇文章中,他提到了Agent與機器人(如Clippy等)的區(qū)別,主要有以下三點:
- 積極主動地根據(jù)用戶需求提出解決方案;
- 能夠跨應用程序完成任務;
- 隨著時間的推移而改進。
按照這幾點,現(xiàn)在除了部分能夠參與企業(yè)業(yè)務流程的GPTs(如通過Zapier等插件以API調用CRM、HR等相關企業(yè)應用),大部分GPTS都是跟ChatGPT一樣的對話機器人。
這一點也無可厚非,畢竟GPTs要做的就是為用戶定制各自專屬的ChatGPT,而更多人的需求可能就是通過對話生成一些內容。
但創(chuàng)建GPTs過程中Action的加入,讓部分GPTs具備了執(zhí)行能力,比一般機器人強大得多,足以連接部分現(xiàn)實世界。
我們還可以把GPTs帶入現(xiàn)在業(yè)界公認最理想的由OpenAI提出的“LLM+規(guī)劃+記憶+工具”四件套Agent框架。
可以發(fā)現(xiàn),大部分GPTs在工具使用方面還未達到AI Agent的標準,因為它們僅在“knowledge”中上傳了一個知識文檔,僅是一個通過對話來獲取文檔相關知識的對話機器人,并沒有涉及工具使用這個部分。
這類GPTs只能根據(jù)輸入的指令進行思考并給予用戶文字、圖片等內容的反饋,而無法去執(zhí)行某些目標比如操作一些軟件去完成相關任務。
事實上,用于構建GPTs的GPT Builder正是一個標準的Agent。用戶提交需求指令之后,GPT Builder會通過設定目標和任務分解,通過互動一步引導用戶去完成GPTs的構建,就連logo都可以根據(jù)指令自動生成。
GPTs對外展示了Agent的相關功能,并證實了Agent連接真實世界的可行性。這些GPTs能夠連接到其他產(chǎn)品和服務,從電子郵件到購物網(wǎng)站,使AI可以執(zhí)行更廣泛的任務。
OpenAI通過GPTs讓更多人知道了什么是AI Agent,以至于有人將GPTs稱之為下一波人工智能浪潮的先驅。
到現(xiàn)在為止,大多數(shù)GPTs缺乏用戶所期望的自主程度,還達不到自主智能體(Autonomous Agent)的級別。其實就連Sam Altman也沒有說GPTs就是真正意義上Agent,他在開發(fā)者大會上用了“Precursors”一詞,用以表明GPTs屬于Agent的“初期形態(tài)”。
所以在一些探討GPTs與AI Agent的觀點中我們可以發(fā)現(xiàn),GPTs被看作是“幾乎成為Agent”或者“準AI Agent”。
“幾乎”與“就是”,還是存在一些差距的。
那GPTs與Agent尤其是自主Agent相比,有什么區(qū)別呢?
GPTs與AI Agent的區(qū)別
在大家所說的GPTs會殺死的Agent項目中,有些項目比如Baby AGI 、MetaGPT及Aiagent等在運行過程中,可以明顯體現(xiàn)合格Agent應該具備的特性。換句話說,它們的表現(xiàn)要比GPTs強很多。
OpenAI開發(fā)者大會之后,LangChain曾在X發(fā)推文強調了其與GPTs的區(qū)別以及自身優(yōu)勢,并在11月10日推出了一個名為Opengpts的開源項目。
該項目通過整合LangServe和LangSmith,旨在為用戶提供與OpenAI GPTs相似體驗的平臺。相對于OpenAI只能用GPT模型構建GPTs,在Opengpts用戶可以通過選擇不同的語言模型、自定義工具以及控制提示,實現(xiàn)對聊天機器人更靈活的控制。
從目前GPTs的表現(xiàn)與“獨立”AI Agent所具備的功能來看,兩者存在以下幾點區(qū)別:
1、GPTs仍舊處于試用階段。
雖然GPT Shunter(一個第三方GPT Store項目)收集的GPTS數(shù)量已經(jīng)超過2.1萬,但大部分GPTs產(chǎn)品形態(tài)仍舊比較初級。
目前GPTs所表現(xiàn)的屬性更易于分享,但在功能上仍舊差強人意,屬于個人娛樂及應用產(chǎn)品的試用階段,并不適合大量企業(yè)去使用。
2、技術棧存在一定限制。
GPTs基于大語言模型GPT-4構建并與OpenAI的生態(tài)系統(tǒng)緊密關聯(lián),這也意味著開發(fā)者所能用的整體技術棧存在一定局限性。
GPT并不開源,所以構建GPTs在LLM的選擇上只能基于GPT,而不能選擇更多的LLM。同時當前版本在使用上也有一些限制,比如最多只能上傳10個數(shù)據(jù)文件。
3、GPTs構建者技能水平不同。
“獨立”AI Agent的構建者主要是開發(fā)人員,GPTs的構建者大多是不會代碼的業(yè)務人員。目前大部分GPTs都是用簡單指令提示來構建的,這讓GPTs的數(shù)量快速暴漲,這也使得GPTs在專業(yè)程度上要差很多,更適合自娛自樂或者解決簡單業(yè)務流程。
程序人員還可以用Assistant API構建功能更多更專業(yè)的GPTs,這些才有可能成為企業(yè)級Agent應用。
4、能處理的任務和GPTs的能力。
現(xiàn)在AI Agent正在成為各種類型的智能助理,可以用于訂餐、買機票以及編程等相對復雜的業(yè)務流程。GPTs也有很多不同用途像私人教練、老師、咨詢師等,但大多數(shù)仍然是聊天機器人。
它更像各種角色扮演類AI,人們可以自定義各種角色來娛樂或者處理簡單事務,比如用來生成各種文本以及用DALL-E生成圖像等。
當然,GPTs已能夠參與部分企業(yè)運營的業(yè)務流程,比如使用Zapier GPT訪問日歷或者Slack等。但目前它還無法深入到企業(yè)運營中的比如SAP、用友、金蝶等的復雜流程中去。
主要在于,一方面很多企業(yè)管理軟件缺少API,另一方面有些API授權費用太高,此外API也不是絕對穩(wěn)定。
5、技術和安全挑戰(zhàn)
目前的AI Agent經(jīng)常被批評不可靠,因此還沒有實現(xiàn)量級的企業(yè)級應用。GPTs也面臨著同樣的問題,會出現(xiàn)幻覺、在同一提示下提供不同的結果以及不能真正理解潛在過程,會產(chǎn)生隨機結果。
除了大模型本身問題,目前GPTs更大的問題是數(shù)據(jù)安全,據(jù)說目前99%的GPTs都在裸奔,幾句話就能套走GPTs的數(shù)據(jù)庫。這些問題,會讓企業(yè)在GPTs的選擇上更加謹慎。
理論上,可以通過更高級的模型或圍繞Agent構建產(chǎn)品以彌補可靠性的不足。比如實在智能推出的RPA Agent,就在數(shù)據(jù)安全上下了很大的功夫,在大語言模型和RPA工具包上都設置的多重安全機制,以保證用戶更安全的使用AI智能體。
6、初級階段的GPTs缺乏產(chǎn)品屬性
到目前為止,GPTs缺乏具體的產(chǎn)品特性,或者說缺乏一種利用GPTs開展業(yè)務的方法。不具備產(chǎn)品級應用的試用性產(chǎn)品,在安全、應用、數(shù)據(jù)、擴展性及解決方案方面很難達到企業(yè)要求,不容易在企業(yè)推廣。
此外GPTs僅供ChatGPT付費用戶及企業(yè)用戶使用,限制了更多人的使用,且沒有定價策略或產(chǎn)品等級差異化的選項?;蛟S這些,都要等到GPT Store的正式上線。眼下OpenAI宮斗大戲剛剛落幕,GPT Store何時上線還是個謎。
GPTs會不會殺死AI Agent?
盡管OpenAI推出的GPTs還不算成熟的AI Agent,或者說處于Agent早期階段,但無疑它響應了一種趨勢,即Agent將會無處不在。GPTs這種形態(tài)的大語言模型產(chǎn)品會讓人人都能用上Agent,這是它的偉大之處。
接下來隨著GPT Store的推出,GPTs將會成為現(xiàn)在APPs一樣存在于每個人的手機、平板抑或其他形式(比如最近的風頭正盛的AIpin)的通訊、娛樂及辦公產(chǎn)品之上。
目前的GPTs還很原始,大部分都屬于定制化的面向某個功能的比如心理咨詢、產(chǎn)品說明、文字及圖片生成等聊天機器人。
但從業(yè)務流程角度而言,很多企業(yè)的一些業(yè)務部門比如市場營銷、客戶支持、新媒體、HR、法務等,某些業(yè)務的大部分流程都是文字、語音交互和生成,應用GPTs足以完成大部分任務,在安全、合規(guī)的情況下這些部門將非常適用GPTs。
如果簡單的GPTs就能勝任企業(yè)運營的多種業(yè)務場景,是不是就無需再去耗費精力與財力打造所謂的專業(yè)單體自主Agent?同時,SaaS化的GPTs開發(fā)是不是也比程序員以代碼構建專業(yè)Agent更為便捷與高效?
目前GPTs還無法介入企業(yè)運營的復雜流程,但我們也看到了通過Zapier等插件實現(xiàn)了與電子郵件、旅游網(wǎng)站及支付軟件等的集成,已經(jīng)能夠操作部分企業(yè)經(jīng)營的業(yè)務流程。
關于企業(yè)內部應用GPTs,是另一個需要探索的話題,王吉偉頻道在這里跟大家簡單聊聊。
現(xiàn)在已經(jīng)有一些企業(yè)在內部進行GPTs的構建與分享,以定制面向不同業(yè)務場景的ChatGPT。比如Amgen、Bain 和 Square等企業(yè),已經(jīng)先一步開始應用自己的專屬GPTs。但這些企業(yè)GPTs是用在內容生成與理解還是深度的業(yè)務運營,目前尚不可知。
通過API調用的各種插件及應用,在OpenAI的Agent架構中都屬于工具應用。這些工具可以是簡單的郵件列表讀取,也可以是復雜的CRM、OA、工作流等流程編排與管理。
OpenAI還沒有更重量級的工具,但其投資的一家RPA公司Induced AI,“RPA 3.0”形態(tài)的產(chǎn)品正是基于GPT的智能體。
大膽猜測一下,這個產(chǎn)品在以后很有可能會以插件或其他形式成為OpenAI Agent架構中諸多工具中的一員,未來或將彌補GPTs在業(yè)務流程執(zhí)行層面無法操作非API工具的不足。
如果Induced AI能夠做這些,其他RPA廠商也能做到。隨著更多RPA廠商推出相應插件,用GPTs操作更多組織運營中復雜流程也就不再是夢。尤其是現(xiàn)在借助Assitant API將原有產(chǎn)品改造升級成為基于GPT的Agent,前所未有的簡單。
王吉偉頻道認為,理論上配合API和RPA,GPTs能夠通達到組織運營各處。就看企業(yè)如何衡量它的運行功效,以及在安全方面是否能夠經(jīng)得住考驗。
鑒于以上幾點,GPTs真有可能成為Agent殺手,至少它已經(jīng)讓很多基于GPT-4的第三方Agent的道路不好走了。
好在,LLM廠商并非只有OpenAI一家。
AI Agent生態(tài)不只有OpenAI
今天我們所說的Agent,都是基于LLM的Agent,它離不開LLM的支撐。
對于AI Agent的未來生態(tài),比爾蓋茨認為不會是一家公司主導AI智能體業(yè)務的局面,而是會出現(xiàn)許多不同的人工智能引擎可用。
更多的競爭將會讓包括GPTs在內的智能體變得非常便宜,有利于更多人使用AI智能體。
現(xiàn)在全球有那么多大語言模型,單是國內就有200多個。既然OpenAI能夠造就GPTs,自然其他LLM廠商也能推出同類產(chǎn)品,或者會與第三方平臺合作推出類似產(chǎn)品。
因此GPTs不會只誕生在OpenAI,像谷歌、Meta等科技巨頭必然更希望其客戶基于自有大模型開發(fā)類GPTs產(chǎn)品及更完善的Agent產(chǎn)品。
就在OpenAI宮斗這幾天,亞馬遜、Meta等廠商已經(jīng)收到更多的AI相關業(yè)務咨詢;OpenAI競爭對手Cohere的咨詢量也是大幅增加;Writer的企業(yè)客戶對其服務的興趣已經(jīng)增加了兩倍;Habib則一直在宣傳其AI系統(tǒng)在某些場景下比GPT-3.5模型更好。
這次宮斗事件確實為AI技術采買帶來不小的影響,用AI21聯(lián)合創(chuàng)始人Yoav Shoham的觀點表達就是,OpenAI發(fā)生的事情讓更多企業(yè)確信,無論如何都不想把所有雞蛋放在一個籃子里。
至于國內市場,不只是無法應用GPT等海外大模型,還會因為信創(chuàng)等衍生出更加多元化的需求,也將會有更具特點的類GPTs產(chǎn)品出現(xiàn)。
此外僅有GPT一個大語言模型,也無法滿足用戶對于GPTs的廣泛需求。未來許多GPTs可能都需要在OpenAI之外開發(fā)更多特性和功能,開發(fā)人員會圍繞GPTs構建更復雜的產(chǎn)品。
從這一點而言,以后LLM廠商及Agent廠商們可能會傾盡所能適配更多大語言模型,甚至不排除OpenAI也會將第三方LLM加入產(chǎn)品體系的可能,以支持用戶對于多類型與功能GPTs的構建。
事實上,AI Agent想要真正在B端實現(xiàn)量級業(yè)務場景的落地及更好地商用,需要綜合考量其本身的安全性、技術發(fā)展周期是否成熟以及To B端的場景是否密切貼合,還需要考慮接口成本、隱私、管理、授權等諸多因素。
這既是很多供應商的技術與產(chǎn)品門檻,也是廣大企業(yè)選型的重要依據(jù)。
企業(yè)在選擇用于業(yè)務流程自動化的AI智能體時,也會優(yōu)先考慮技術供應商廠商推出的AI智能體產(chǎn)品,而不是選擇LLM廠商推出的尚未成熟的通過API連接各種插件的單一智能體解決方案。
這些,都是眼下GPTs這種單一智能體所無法具備的。至于GPTs什么時候能夠發(fā)展成為成熟智能體產(chǎn)品,就要看OpenAI如何在企業(yè)用戶端下功夫了。
在王吉偉頻道看來,GPTs確實扼殺了一些Agent相關的初創(chuàng)公司,但大多是Sam Altman所說的“套殼與模仿GPT”的項目。對于AI Agent而言,GPTs目前遠未表現(xiàn)出殺手級實力,并且它也殺不死那些為專有功能而構建的復雜類型Agent。
GPTs的出現(xiàn)反而啟發(fā)了更多企業(yè)的創(chuàng)新,會讓Agent產(chǎn)品在短期內海量爆發(fā),用最快的速度構建與完善AI Agent生態(tài)。
或許,以GPTs范式引領Agent繁榮生態(tài),早日實現(xiàn)AGI,才是OpenAI最想做的。