文|阿爾法工場(chǎng)
10月17 日,在“2023百度世界大會(huì)”上,李彥宏正式發(fā)布了最新的文心大模型4.0版本。
一時(shí)間,各種測(cè)評(píng)紛涌而至,各大科技媒體從理解、生成、邏輯和記憶能力等方面,對(duì)模型進(jìn)行了全方位測(cè)評(píng)。
然而,除了被人反復(fù)談?wù)摰奈男?.0之外,在發(fā)布會(huì)上,另一個(gè)稍顯低調(diào)的功能,卻也冷不丁地顯示了未來(lái)大模型的發(fā)展趨勢(shì)。
這就是百度文心4.0的插件功能。
目前,文心4.0光是插件就有8個(gè),包括一鏡流影(文字轉(zhuǎn)視頻)、說(shuō)圖解畫(看圖說(shuō)話)、E言易圖(可視化數(shù)據(jù)分析)等。
這些插件還可以自由組合,來(lái)完成更復(fù)雜的任務(wù)。
不僅如此,百度文心大模型插件開發(fā)平臺(tái)——靈境矩陣平臺(tái),上線1個(gè)月已有2.7萬(wàn)家開發(fā)者申請(qǐng)入駐,個(gè)人開發(fā)者占比超30%。
那么,百度為何如此重視插件?而插件生態(tài)的繁榮,對(duì)大模型又意味著什么?
01 插件,讓大模型如虎添翼
從某種程度上說(shuō),插件對(duì)于大模型,相當(dāng)于是另一大隱藏的“殺手锏。”
在不對(duì)模型算法、參數(shù)進(jìn)行改進(jìn)的情況下,僅僅憑借一個(gè)簡(jiǎn)單的外接插件,模型能力就有可能得到顯著擴(kuò)展和提升。
此前,GPT-4就已經(jīng)通過(guò)插件功能實(shí)現(xiàn)了如虎添翼的效果。外界甚至將那次提升稱之為GPT-4.5的到來(lái)。
今年7月9號(hào),OpenAI宣布將官方插件Code Interpreter(代碼解釋器)通過(guò)設(shè)置中的Beta面板向所有ChatGPT Plus 用戶提供。
那Code Interpreter具體能做什么?
簡(jiǎn)單來(lái)說(shuō),它相當(dāng)于是GPT-4能力邊界的一次大擴(kuò)展,能讓GPT-4做到很多之前做不到的事。
例如,在該插件推出后,推特用戶@歸藏展示了用代碼解析器分析newsletter訂閱用戶數(shù)據(jù)的過(guò)程。
代碼解析器從分析數(shù)據(jù)到制圖,都不需要使用任何復(fù)雜軟件,只需要說(shuō)出:“我想分析最近一個(gè)月訂閱用戶增長(zhǎng)的趨勢(shì)”這類直白的prompt,就可以完成。
除外,人們還能直接用“人話”讓GPT通過(guò)數(shù)據(jù)制作一些可視化的GIF圖片。
例如人們?nèi)绻胫谱饕环菝绹?guó)燈塔的地理圖標(biāo),只需要上傳地理位置數(shù)據(jù),GPT就能通過(guò)插件功能,自動(dòng)制作如下的GIF動(dòng)圖。
而即使是想通過(guò)圖片生成視頻,CodeInterpreter也能手到拈來(lái)。在啟用插件后,只需告訴GPT:“我想用這張圖片,制作一段從右往左的平移視頻?!?/p>
GPT就會(huì)根據(jù)你的要求,自動(dòng)將Midjourney生成的圖片做成視頻。
甚至,不怎么有代碼和編程經(jīng)驗(yàn)的人,也能運(yùn)用CodeInterpreter插件,在5分鐘內(nèi)制作一個(gè)簡(jiǎn)單的游戲。
總地來(lái)說(shuō),CodeInterpreter包括的功能,涵蓋了打破模態(tài)壁壘,轉(zhuǎn)換素材形態(tài),進(jìn)行數(shù)據(jù)分析等多種不同的任務(wù)。
而該插件之所以有如此“逆天”的功能,則是因?yàn)槠浯蚱屏俗匀徽Z(yǔ)言和代碼語(yǔ)言之間的壁壘。
有了它,用戶就能刨去復(fù)雜的代碼過(guò)程,通過(guò)自然語(yǔ)言交互(所謂“人話”),直接完成各種跨領(lǐng)域、跨模態(tài)的任務(wù)。
也正因如此,有人驚呼這種讓模型能力倍增的插件,就是GPT-4.5的到來(lái)。
由此,我們便不難理解,為何百度會(huì)如此重視插件的發(fā)展。
對(duì)于大模型研發(fā)團(tuán)隊(duì)來(lái)說(shuō),讓一個(gè)模型囊括用戶的所有需求是不可能,也不現(xiàn)實(shí)的。因?yàn)樵贏I演化的過(guò)程中,用戶必定會(huì)產(chǎn)生更多新的,難以預(yù)料的想法、需求。
而這時(shí),一個(gè)個(gè)多樣化的、靈巧的插件,就成了延申大模型能力的“義體”。
02 插件的百花齊放
除了OpenAI自帶的原生插件之外,當(dāng)下的AI賽道上,還涌現(xiàn)出了其他百花齊放的插件。
此處,我們將做一些簡(jiǎn)單的列舉,看看這些功能各異的插件,將對(duì)大模型帶來(lái)哪些多樣化的擴(kuò)展。
ChatPDF
ChatPDF是一款功能強(qiáng)大的在線PDF工具,用戶只需上傳PDF文件到ChatPDF,ChatPDF便能夠快速使用AI解析PDF文件內(nèi)容,并生成準(zhǔn)確的答案來(lái)回答用戶的問(wèn)題。
除了智能問(wèn)答功能,ChatPDF還提供了在線編輯、轉(zhuǎn)換和文件壓縮功能。如果用戶想在PDF文件中添加或刪除一些元素,或者更改某些文本或圖像,ChatPDF 的在線編輯功能將會(huì)非常有用。
Monica
一個(gè)接入了ChatGPT的API接口的網(wǎng)頁(yè)側(cè)邊欄插件,啟動(dòng)該插件后,在瀏覽任何網(wǎng)站時(shí),Monica就能使用ChatGPT的能力,解讀任何信息或文本,或?qū)W(wǎng)頁(yè)內(nèi)容進(jìn)行探討,以及提供翻譯等。
值得一提的是,除了ChatGPT之外,Monica還集合了Claued、Bard等其他AI的接口,如果這還不夠,用戶還可以在其接入的AI庫(kù)中,自行搜索并添加其他AI工具,從而可以通過(guò)不同的AI滿足自己多樣化的需求。
ChatHub
這是一個(gè)可以在一個(gè)應(yīng)用程序中使用不同的聊天機(jī)器人的插件,目前支持ChatGPT和新的BingChat,并將來(lái)會(huì)集成Google Bard等更多聊天機(jī)器人。用戶可以同時(shí)與多個(gè)聊天機(jī)器人進(jìn)行交流,輕松比較它們的答案。
NoteGPT
這是一個(gè)使用ChatGPT對(duì)視頻進(jìn)行總結(jié)的插件。支持在視頻網(wǎng)站上一鍵截屏和記錄筆記。
啟動(dòng)該插件后,面對(duì)某些時(shí)長(zhǎng)較長(zhǎng)的視頻時(shí),用戶就可以快速地用ChatGPT獲取視頻內(nèi)容的關(guān)鍵信息,并生成摘要和總結(jié),同時(shí)還可以在觀看視頻時(shí)一鍵截屏或記錄帶有時(shí)間戳的筆記。
智星AI助手
這是國(guó)內(nèi)首款支持插件的AI認(rèn)知模型產(chǎn)品,智星AI當(dāng)前已接入7個(gè)插件,包括天氣查詢、Bing搜索、Wolfram等,可以快速提供實(shí)時(shí)天氣信息,解答高等數(shù)學(xué)問(wèn)題,進(jìn)行深度金融分析等。
相較而言,ChatGPT每次只能使用3個(gè)插件,而智星AI使用時(shí)沒(méi)有插件數(shù)量限制。
WPSAI
相當(dāng)于是國(guó)內(nèi)版的Microsoft365 Copilot,具備縮寫、擴(kuò)寫、續(xù)寫、轉(zhuǎn)變寫作風(fēng)格、總結(jié)概括文章要點(diǎn),快速生成PPT大綱、一鍵制作PPT模板,智能化處理Excel表格等功能,并擁有語(yǔ)音交互新特性,可以在手機(jī)等小屏終端上進(jìn)行移動(dòng)辦公。
03 插件里的雄心
除了上述種類各異的第三方插件功能外,各大科技巨頭在插件方向上,也呈現(xiàn)出了一種蓄勢(shì)待發(fā)的態(tài)勢(shì)。
例如,MicrosoftAI 插件平臺(tái),就提供了一系列的工具和服務(wù),讓開發(fā)者可以利用微軟的的ChatGPT和新必應(yīng),創(chuàng)建和部署各種AI插件,包括能力模型類、數(shù)據(jù)類、應(yīng)用類等。其插件跨越了多個(gè)場(chǎng)景和產(chǎn)品,如Dynamics 365、Microsoft 365等。
而在國(guó)內(nèi)方面,百度也推出了號(hào)稱讓人人可開發(fā)AI插件的「靈境矩陣」平臺(tái),試圖以文心一言為基礎(chǔ),構(gòu)建一個(gè)龐大的插件生態(tài)。
而這種大布局的背后,至少顯露了巨頭們?cè)趦煞矫娴囊鈭D:1、 以插件為突破口,打通大規(guī)模商業(yè)化的路徑;2、 以龐大的插件生態(tài),構(gòu)筑類似英偉達(dá)的CUDA那樣的軟件壁壘。
關(guān)于第一點(diǎn),為何大模型+插件模式,極有可能是AI大規(guī)模商業(yè)化的答案?
理由其實(shí)很簡(jiǎn)單,此前的大模型,無(wú)論是AI生文、作圖,其賦能領(lǐng)域都只能局限在單一的、狹窄的范圍內(nèi)。
某個(gè)大模型也許寫作水平不錯(cuò),但它在現(xiàn)實(shí)中,該如何解決商品對(duì)比、財(cái)務(wù)分析這樣多門類的、具體的任務(wù)呢?
人們?cè)谏钪械男枨笫嵌鄻踊⒍鄬哟蔚?,從這個(gè)角度上說(shuō),當(dāng)大模型打破了單一模態(tài)的限制,并滿足了這種多樣化需求的時(shí)候,就是其真正大規(guī)模商業(yè)化落地的開始。
而一個(gè)個(gè)外接的插件功能,就相當(dāng)于是大模型的?“眼”和“手”,讓其不再局限于單一領(lǐng)域、模態(tài)的范圍。
在未來(lái),用戶可能只需要一個(gè)大模型入口,就能完成諸如訂票、點(diǎn)餐、叫外賣等任務(wù)。
而這也引出了第二點(diǎn),即以插件為主的生態(tài)壁壘。
在當(dāng)下的大模型賽道上,盡管國(guó)內(nèi)外衍生的AI應(yīng)用已不勝枚舉,當(dāng)其中有相當(dāng)一部分,仍然是基于ChatGPT的“套殼”產(chǎn)品。
這樣的現(xiàn)實(shí),也從一個(gè)側(cè)面反映出:在大模型的選擇上,大部分開發(fā)者和用戶,仍然只認(rèn)最強(qiáng)的幾個(gè)頭部產(chǎn)品。
著名投資機(jī)構(gòu)A16Z上月公布的流量前50的AI網(wǎng)站,其中相當(dāng)一部分是“套殼”應(yīng)用
換句話說(shuō),對(duì)于大模型,用戶只要遇到了一個(gè)最好用的,就不太會(huì)再用其他的。
在這樣的邏輯之下,眾多企業(yè)若是不想陷入重復(fù)造輪子的境地,最好的選擇必然是將重心轉(zhuǎn)向應(yīng)用端。
而歷史的經(jīng)驗(yàn)表明,在軟件、應(yīng)用端的競(jìng)爭(zhēng)上,誰(shuí)能為開發(fā)者提供一個(gè)低門檻的,友好的開發(fā)環(huán)境,誰(shuí)就能率先建立起自身的生態(tài)壁壘。
在這方面,英偉達(dá)的CUDA可以說(shuō)是做了一個(gè)極好的表率。
經(jīng)過(guò)持續(xù)的演進(jìn),CUDA已然形成了一個(gè)豐富而成熟的龐大生態(tài)。英偉達(dá)也由此實(shí)現(xiàn)了軟硬件深度捆綁:用他的軟件就必須買他的硬件,買他的硬件使用CUDA可事半功倍。
而目前各大巨頭們?cè)诓寮系臓?zhēng)相布局,也頗與英偉達(dá)的CUDA有異曲同工之妙:開發(fā)者或用戶若想實(shí)現(xiàn)低門檻、快捷的AI應(yīng)用開發(fā),就必須基于其大模型的能力。
反過(guò)來(lái),應(yīng)用生態(tài)的繁榮,又會(huì)強(qiáng)化人們對(duì)其大模型的仰賴。
而誰(shuí)若率先實(shí)現(xiàn)了這樣與應(yīng)用相互促進(jìn),相輔相成的生態(tài),誰(shuí)就將有可能在AI時(shí)代率先豎立起自身的生態(tài)的壁壘。