文|新立場
模型即服務(wù)(Model as a Service),簡稱MaaS,指的就是像OpenAI一樣將自家AI模型的接口開放給廣大企業(yè)用戶或個(gè)人用戶,用戶僅僅需要在調(diào)用該模型的基礎(chǔ)上,進(jìn)行一定程度的個(gè)性化微調(diào),就可以完成各種多元任務(wù)。說白了,只要是將模型應(yīng)用起來,都可以視為模型即服務(wù)。
如今國內(nèi)已有超過兩百個(gè)所謂的大模型發(fā)布,國內(nèi)“百模大戰(zhàn)”如火如荼,大戰(zhàn)下半場,輿論重心也逐漸從比較模型的參數(shù)規(guī)模和技術(shù)跑分,到思考將模型如何更好地應(yīng)用到實(shí)處。
此時(shí)也出現(xiàn)了多種聲音,關(guān)于大模型的應(yīng)用,關(guān)于小模型的應(yīng)用,基于大模型的小模型的應(yīng)用等等。而小模型這一詞匯逐漸占據(jù)視角的同時(shí),也讓不少人開始思考,那么多大模型是否真的有必要?以及大小模型將會如何共同發(fā)展?
01、為大而大,及時(shí)剎車
如今,模型的為大而大,正在剎車。
此前幾個(gè)國內(nèi)主要的大模型都曾宣稱自己的參數(shù)規(guī)模超千億級別,有的甚至是萬億,一時(shí)間,對比各大模型參數(shù)的數(shù)量級,成為不少AI愛好者茶余飯后的談資。
然而百度李彥宏在近日的圓桌會議上發(fā)言稱:“100多個(gè)大模型浪費(fèi)社會資源……尤其在中國算力還受限制情況下,企業(yè)應(yīng)該去探索各行各業(yè)的應(yīng)用結(jié)合、全新的 App產(chǎn)品可能性等?!?nbsp;
李彥宏的發(fā)言并非是因?yàn)橐呀?jīng)疲于作戰(zhàn),而是及時(shí)參透了為大而大的假象。
其實(shí)早在今年4月, OpenAI 首席執(zhí)行官山姆·阿爾特曼(Sam Altman)就在麻省理工學(xué)院交流時(shí)說過:“我認(rèn)為我們正處于巨型模型時(shí)代的結(jié)尾?!币庠诒硎拘碌倪M(jìn)步不會來自于讓模型變得更大,“我們會以其他方式讓他們變得更好。”
并且谷歌和微軟也確實(shí)都在積極擁抱小模型。
谷歌在今年5月份的開發(fā)者大會上發(fā)布了新一代大語言模型 PaLM2,總共四個(gè)尺寸,其中參數(shù)體量最小的模型代號“壁虎”有被著重介紹,雖然當(dāng)時(shí)并未給出“壁虎” 的具體參數(shù)規(guī)模,但谷歌CEO皮查伊說,“壁虎” 可以在手機(jī)上運(yùn)行,而且速度足夠快、不聯(lián)網(wǎng)也能正常工作。
在11月的Ignite2023上,微軟董事長兼首席執(zhí)行官Nadella在主題演講中就推出了基于微軟云計(jì)算Azure的MaaS服務(wù),緊接著便直言“微軟喜歡小模型(SLM)”,并宣布了名為Phi-2的小型語言模型,該模型參數(shù)僅有27億,盡管比起Phi-1.5的13億參數(shù)有所增長,“但Phi-2在數(shù)學(xué)推理方面的性能提高了50%,并且是開源的,還將加入MaaS?!?nbsp;這些國內(nèi)外AI巨頭大模型剎車的背后,實(shí)則是因?yàn)榇竽P透傎悊栴}叢生。
浪費(fèi)算力的問題首當(dāng)其沖。
11月中旬,微軟研究院機(jī)器學(xué)習(xí)團(tuán)隊(duì)的負(fù)責(zé)人Sebastien Bubeck在推特上發(fā)布了一張圖,顯示了在MT bench的測評體系下,僅有27億參數(shù)規(guī)模的Phi-2得分6.62,18000億參數(shù)的GPT4得分8.99。
此前就有人爆料GPT4訓(xùn)練一次的費(fèi)用可能達(dá)到6300萬美元,然而如此高昂的代價(jià),帶來的并不是跟隨成本線性增長的性能,山姆直言:“擴(kuò)大模型規(guī)模的收益在遞減?!?nbsp;
簡而言之,辦好七成的事情只需要花一塊錢,與辦好九成的事情可能需要一千元,對于每個(gè)企圖入局大模型的企業(yè)而言,都是一件需要在戰(zhàn)略層面值得抉擇的事情。
顯然,很多竭盡全力往更大規(guī)模上靠的大模型都選擇了花更多的錢,還不一定能辦好九成的事,造成了極大的算力浪費(fèi),這些算力都會實(shí)打?qū)嵉叵男酒腿肆Α?nbsp;
其次,更大模型帶來的AI涌現(xiàn),將變得愈發(fā)不可控制。
OpenAI認(rèn)為,未來十年來將誕生超過人類的超級AI系統(tǒng),彼時(shí)“基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)將終結(jié)”。
也就是說,當(dāng)AI超越人類后,AI不會再聽人話來進(jìn)行訓(xùn)練調(diào)整,那時(shí)候AI自我進(jìn)化會帶來什么后果,許多科幻作品已經(jīng)為我們敲響警鐘。
哪怕暫且不提不遠(yuǎn)不近的未來,只看眼前,通用大模型要應(yīng)用到實(shí)處,本身就是一個(gè)難題。從技術(shù)出發(fā)去匹配應(yīng)用場景,容易本末倒置。
此時(shí)許多垂直大模型才是用對了思路,直接從業(yè)務(wù)角度出發(fā)搭建大模型。
但關(guān)鍵在于,這些垂直大模型雖然在往更大規(guī)模上靠攏,卻又算不上“大”。此時(shí)的“大模型”反而變成了一個(gè)象征意義的前后綴。
比如農(nóng)業(yè)銀行基于其本身業(yè)務(wù)推出的大模型小數(shù)(ChatABC),參數(shù)達(dá)百億,相比起幾個(gè)通用大模型動(dòng)輒幾千億上萬億的參數(shù)規(guī)模,百億并不算大。而面對垂直行業(yè)的業(yè)務(wù),模型也實(shí)在沒必要過大。
參數(shù)到達(dá)多少億就算是大模型了,隨著技術(shù)的發(fā)展,恐怕是不會有確切不變的標(biāo)準(zhǔn)的。微軟現(xiàn)在認(rèn)為自己27億的模型就算小模型,但在早幾年前普遍認(rèn)為上億就算大模型了。
不過不管多大多小,重點(diǎn)在于,搭建模型的目的是什么?
02、以小馭大,把韁繩交給用戶
我們需要離用戶更近的模型。
在用戶層面來看,如何更快更好更低成本地使用工具達(dá)成自己的目的才是核心訴求。
如果將通用大模型直接給C端用戶使用,使用成本高,不夠個(gè)性化,恐怕都將成為難以維系商業(yè)可持續(xù)性的原因。
一個(gè)很典型的例子就是使用GPT4,每次對話結(jié)束后都會清空,它不會記住你之前有什么樣的需求偏向,導(dǎo)致AI帶來的效率提升大打折扣。相信也正因?yàn)槿绱?,OpenAI會推出GPT的應(yīng)用商店,允許用戶搭建自己的GPT個(gè)性化應(yīng)用。但GPT4仍要收取一定的會員費(fèi)用,其實(shí)這筆費(fèi)用對于世界各地廣大C端用戶而言并不算低。
那么這個(gè)時(shí)候,如果有一個(gè)直接從具體的業(yè)務(wù)場景出發(fā)訓(xùn)練搭建的模型,相信對于用戶而言使用成本和效率都會更理想,而這樣的模型往往也不會太大。
更不用說以后的模型即服務(wù)更大的應(yīng)用場景在于讓AI走下云端,走進(jìn)移動(dòng)端,將模型塞進(jìn)手機(jī)、智能汽車、機(jī)器人等設(shè)備,進(jìn)行離線運(yùn)行,這只有較小的模型才能做到,上文說到的谷歌“壁虎”可在手機(jī)離線運(yùn)行的意義便在于此,畢竟一個(gè)只要沒網(wǎng)就無法運(yùn)行的AI智能設(shè)備實(shí)在雞肋。
在創(chuàng)業(yè)角度來看,搭建離用戶更近的模型自然也更有生存空間。
一個(gè)很典型的例子就是,在SaaS(軟件即服務(wù))時(shí)代出現(xiàn)了一種情況:針對具體地區(qū)某個(gè)細(xì)分餐飲品類點(diǎn)單小程序這個(gè)場景,僅僅一家十人左右的公司就可以搭建起一套SaaS系統(tǒng)的研發(fā)和銷售,創(chuàng)始人以前就是開這種餐飲店的,積累了相當(dāng)多的同行資源以及場景痛點(diǎn),如此的小系統(tǒng),成本低,且更懂用戶,在售賣軟件環(huán)節(jié)輕而易舉打敗許多通用型餐飲點(diǎn)單SaaS系統(tǒng)。
MaaS時(shí)代極有可能也會出現(xiàn)這樣的事情。
小一些的模型和大一些的模型當(dāng)然不總是競爭關(guān)系,“大模型可以成為小模型的基座”這是很多人已經(jīng)達(dá)成的共識,但在這個(gè)觀點(diǎn)之下更底層的關(guān)系在于,較小的模型離用戶更近,較大的模型走得更遠(yuǎn),以小馭大,讓人類走得更遠(yuǎn)。
在模型的應(yīng)用開發(fā)方面,早就有用小模型駕馭大模型的實(shí)例。
比如上文提到的Ignite2023微軟CEO就在介紹小模型時(shí)表示“可以將微軟的云計(jì)算AzureAI能力從云擴(kuò)展到任何端點(diǎn)”,調(diào)用GPT4的強(qiáng)大功能,定義自己的小模型。
國內(nèi)則是有華為的盤古大模型3.0,提供5+N+X的三層解耦架構(gòu),其中的“5”指的就是基礎(chǔ)大模型,“N”是通用層面,“X”則是具體應(yīng)用場景的小模型。
較小的企業(yè)比如做營銷解決方案服務(wù)的沃豐科技此前表示,他們在模型訓(xùn)練上采取了兩種策略。一是固定一部分參數(shù),只對其余參數(shù)進(jìn)行迭代。二是在通用大模型基礎(chǔ)上,進(jìn)行小模型迭代。
個(gè)人用戶基于GPT大模型搭建屬于自己的GPT應(yīng)用,也是典型的以小模型駕馭大模型,畢竟,小模型更懂你,大模型更全能。
而在AI進(jìn)化這方面,上文提到過的OpenAI的隱憂,即AI的進(jìn)化將變得不聽人話,出現(xiàn)的問題也將超過人類認(rèn)知,針對這個(gè)隱患,OpenAI目前想到的解決方案就是用小模型去監(jiān)督大模型,原話是——“弱AI監(jiān)督引導(dǎo)強(qiáng)AI”。
這來源于12月17日OpenAI在其官網(wǎng)上發(fā)布的一個(gè)全新研究成果:一個(gè)利用較弱的模型來引導(dǎo)更強(qiáng)模型的技術(shù),即由弱到強(qiáng)的泛化。
在此前類似的研究中,由弱替代強(qiáng)被稱為模型蒸餾。它可以生成一個(gè)小的、高效的模型,這個(gè)模型可以在資源受限的設(shè)備上運(yùn)行,同時(shí)保持與大模型相似的性能。原本的研究出發(fā)點(diǎn)是在移動(dòng)設(shè)備或邊緣設(shè)備上部署較大的AI模型。
而OpenAI此舉則是為了監(jiān)督強(qiáng)AI的進(jìn)化,OpenAI稱其為超級對齊,我們可以理解為,讓聽得懂機(jī)器語言的大模型向小模型看齊,讓既聽得懂機(jī)器語言又聽得懂自然語言的小模型向人類看齊。
OpenAI這里用的弱AI和強(qiáng)AI分別是GPT2和GPT4,GPT2的參數(shù)為15億,如果研究結(jié)果切實(shí)可行,也就意味著人類可以用15億參數(shù)的小模型駕馭18000億參數(shù)的大模型。
由此可見,較小的模型不管從應(yīng)用層面還是進(jìn)化層面都成為了韁繩,韁繩的一邊是人類,另一邊是遠(yuǎn)超人類的超級AI。
好在國內(nèi)早已經(jīng)有以小馭大的土壤。
其實(shí)早在2021年就已經(jīng)有微軟聯(lián)手英偉達(dá)推出5300億參數(shù)的NLP(自然語言處理)模型,阿里達(dá)摩院當(dāng)年也將預(yù)訓(xùn)練模型參數(shù)推高至十萬億,也已經(jīng)有人注意到了上千億參數(shù)的GPT3,但不管是GPT3還是其他,也許是彼時(shí)各大模型用了過大參數(shù)表現(xiàn)卻差強(qiáng)人意,所以并沒有被廣泛關(guān)注。
到了2021年末,達(dá)摩院預(yù)測的2022年十大科技趨勢報(bào)告中就有提到,在經(jīng)歷了一整年的參數(shù)競賽模式之后,新的一年大模型的規(guī)模發(fā)展將進(jìn)入冷靜期,“人工智能研究將從大模型參數(shù)競賽走向大小模型的協(xié)同進(jìn)化,大模型向邊、端的小模型輸出模型能力,小模型負(fù)責(zé)實(shí)際的推理與執(zhí)行;同時(shí)小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強(qiáng)化,形成有機(jī)循環(huán)的智能體系?!?nbsp;
旨在表示小模型對于大模型的應(yīng)用和進(jìn)化帶來的協(xié)同作用。
2022年初有媒體報(bào)道,阿里巴巴達(dá)摩院、上海浙江大學(xué)高等研究院、上海人工智能實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì),他們通過蒸餾壓縮和參數(shù)共享等技術(shù)手段,將3.4億參數(shù)的M6模型壓縮到了百萬參數(shù),以大模型1/30的規(guī)模,保留了大模型90%以上的性能。
盡管相比起現(xiàn)在,3.4億規(guī)模的參數(shù)并不算大,但這卻為大模型的瘦身,以及以小馭大開了一個(gè)好頭。
據(jù)當(dāng)時(shí)的媒體報(bào)道,該技術(shù)有被應(yīng)用到支付寶搜索框。
接著,就在不遠(yuǎn)的將來2022年末,GPT3.5橫空出世,保持了GPT3的參數(shù)規(guī)模,表現(xiàn)結(jié)果卻足以驚艷全世界。之后來到2023年,上千億參數(shù)規(guī)模的模型之戰(zhàn)便再次觸發(fā)。
如果從這條時(shí)間線捋下來,2023年初開始的這場模型競賽反而不應(yīng)該聚焦在“大”上,而是應(yīng)該在“大而好”。
而如今大模型進(jìn)入應(yīng)用階段,核心也將是在更大規(guī)模上的以小馭大。
03、寫在最后
著名科幻動(dòng)畫片《愛,死亡和機(jī)器人》第二季第一集《自動(dòng)化客戶服務(wù)》中講述的故事是,人們生活在一個(gè)幾乎所有的設(shè)備都連接了智能AI的未來世界,在故事前半部分的烘托中,人類跟這些AI設(shè)備完全沒有深度交流,僅僅只是下達(dá)指令讓他們做事。故事的結(jié)局是,所有設(shè)備聯(lián)合起來追殺人類。
同樣也是《愛,死亡和機(jī)器人》,第一季讓人映像深刻的《齊馬藍(lán)》,講述的則是一個(gè)叫做齊馬的藝術(shù)家,他邊畫畫邊探索宇宙的奧秘。然而他的每一幅作品中間都有一個(gè)藍(lán)色的方塊。
后來齊馬接收采訪,講述了一個(gè)泳池清洗機(jī)的故事,并稱這個(gè)泳池清洗機(jī)“最初來源于一位才華橫溢的年輕女士的創(chuàng)造”,“她最喜歡的機(jī)器人就是這個(gè)?!焙髞?,這位女士基于這個(gè)小機(jī)器人不斷地進(jìn)行改造,直到這位女士死后,機(jī)器人被繼承給了別人繼續(xù)迭代,并變得越來越像齊馬。
在最后一場藝術(shù)家的發(fā)布會上,齊馬跳進(jìn)泳池里欣然切斷了自己的高級大腦,只剩下他最本真的部分——泳池清洗機(jī),然后開始用自己的小刷子刷泳池上的藍(lán)色瓷磚塊,并發(fā)出感慨——
“我對真理的探索終于結(jié)束了,我回家了?!?nbsp;