文|光子星球 吳坤諺
編輯|王 潘
“面向AI時(shí)代,所有應(yīng)用都值得用大模型重做一遍?!?/p>
4月11日的2023阿里云峰會(huì)上,阿里巴巴集團(tuán)董事會(huì)主席兼首席執(zhí)行官、阿里云智能集團(tuán)首席執(zhí)行官?gòu)堄碌倪@句話其實(shí)有些給他人作注之嫌,APUS創(chuàng)始人李濤曾說(shuō)過(guò)一句更提振人心的話:幾乎所有行業(yè),都值得被人工智能重做一遍。
隨著阿里AI大模型——通義千問(wèn)的正式亮相,以及百度、華為、360等互聯(lián)網(wǎng)頭部企業(yè)前后腳推出自己的AI大模型,屬于AI,又或者說(shuō)是屬于AI大模型的時(shí)代到來(lái)。但究其根源,大模型在ChatGPT的破圈效應(yīng)下引發(fā)大廠們小步快跑進(jìn)場(chǎng),也只是冷飯熱吃。
早在2018年,谷歌便提出超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BERT,2020年,OpenAI推出GPT-3超大規(guī)模語(yǔ)言訓(xùn)練模型,參數(shù)達(dá)到1750億,用了大約兩年的時(shí)間,實(shí)現(xiàn)了模型規(guī)模從1億到上千億級(jí)的突破,并能實(shí)現(xiàn)作詩(shī)、聊天、生成代碼等功能。
2021年,國(guó)內(nèi)大廠也感受到了大模型的東風(fēng),華為云發(fā)布盤古NLP超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和盤古α超大規(guī)模預(yù)訓(xùn)練模型、阿里達(dá)摩院發(fā)布十萬(wàn)億參數(shù)的多模態(tài)大模型M6、以及百度也推出了如今文心一言的前身——ERNIE 3.0 Titan。如果說(shuō)大模型的元年,其實(shí)2021年可能更合適。
總的來(lái)說(shuō),這一階段的大模型還充滿著“等風(fēng)口”的階段,只是彼時(shí)的AI大模型尚欠缺商業(yè)模式的落地支撐,例如盤古NLP模型在面世之初便確定了自己to B的定位,直至ChatGPT憑借出色的交互以及開放性測(cè)試在全球掀起AI狂潮。
于是大廠們紛紛撿起自己的復(fù)現(xiàn)成果,調(diào)用起云業(yè)務(wù)中閑置的算力,亦步亦趨地追趕,希望能夠后發(fā)先至。
泛濫的大模型
OpenAI為大家找到了產(chǎn)品落地之路,引發(fā)一眾大廠一哄而上。
本輪“狂飆”下的第一個(gè)玩家是百度,百度本身浸淫搜索領(lǐng)域、中文垂類知識(shí)多年,掌握大量高質(zhì)量通識(shí)數(shù)據(jù),而且早在2010年便成立了自然語(yǔ)言處理部,本就是大廠中最早探索AI的一批,如今也是最早推出了類GPT應(yīng)用文心一言。
4月以來(lái),大模型井噴,入場(chǎng)者接連發(fā)布大模型的新聞消息應(yīng)接不暇。
4月9日,360在2023數(shù)字安全與發(fā)展高峰論壇上發(fā)布類GPT大模型“360智腦”,周鴻祎親切地稱其為“剛生出來(lái)的孩子”。4月10日,自學(xué)術(shù)圈走進(jìn)商界的AI獨(dú)角獸商湯科技對(duì)外發(fā)布了“日日新SenseNova”大模型體系,推出自然語(yǔ)言處理、內(nèi)容生成、自動(dòng)化數(shù)據(jù)標(biāo)注、自定義模型訓(xùn)練等多種大模型及能力并提供實(shí)機(jī)演示。
4月11日,阿里在2023云峰會(huì)上發(fā)布“通義千問(wèn)”大模型并向社會(huì)企業(yè)開放使用,邀請(qǐng)企業(yè)參與共創(chuàng)自己的大模型。發(fā)布會(huì)上,張勇在宣布將阿里系應(yīng)用接入大模型重做時(shí),炫富式地展示了阿里系那令人眼花繚亂的商業(yè)應(yīng)用,完善的APP矩陣與數(shù)字商業(yè)積累顯然成為大模型訓(xùn)練的基石。
緊隨其后的騰訊“混元”大模型與華為的“盤古”大模型,一個(gè)把守著豐富的社交場(chǎng)景與信息流數(shù)據(jù),另一個(gè)也手握智能硬件的高頻流量,而且兩者都通過(guò)云服務(wù)的市場(chǎng)地位獲取了極富商業(yè)價(jià)值的數(shù)據(jù)資產(chǎn)。
無(wú)論好壞,即使是“剛生出來(lái)的孩子”也要“抱出來(lái)給大家看”,眾大廠趕鴨子上架式的密集發(fā)布大模型,怎么看都有點(diǎn)飛蛾撲火的意思。
首先,構(gòu)建大模型是很難迅速產(chǎn)生商業(yè)價(jià)值的。參考大模型渴望復(fù)現(xiàn)的openAI,盡管在微軟的投資下,其公司估值越來(lái)越高,但至今仍未實(shí)現(xiàn)盈利。芯片、能耗、數(shù)據(jù)資產(chǎn)等剛性成本也將隨著入場(chǎng)者的增加水漲船高。在行業(yè)“乍暖還寒”、降本增效的當(dāng)下,將寶貴的現(xiàn)金流投進(jìn)AI的無(wú)底洞,未必是一個(gè)好主意。
其次,大模型并非通往強(qiáng)人工智能的唯一道路。隨著數(shù)據(jù)不斷增長(zhǎng),算力持續(xù)提升,優(yōu)化手段越來(lái)越好,模型也會(huì)越來(lái)越大。無(wú)數(shù)人工神經(jīng)元分層排列,而參數(shù)量描述了神經(jīng)元之間連接強(qiáng)度的可調(diào)值。模型的預(yù)訓(xùn)練就是在已知文本的基礎(chǔ)上不斷重復(fù)執(zhí)行并調(diào)整這些參數(shù),以便算法下次做得更好,也就是我們所說(shuō)的“調(diào)教”。
只是堆砌再多文本,AI習(xí)得的語(yǔ)言模式也無(wú)法讓其真正誕生邏輯思維,模仿不了數(shù)學(xué)推理。目前亦步亦趨在ChatGPT3.5之后的大模型們也將遭遇前者的困境。既然不是為了AI功能性的升級(jí),那么耗費(fèi)海量算力與“鈔能力”的目的也顯而易見,ChatGPT為我們拉開了AI大模型商業(yè)化落地的大幕,緊隨其后上臺(tái)的人當(dāng)然要賺上同樣的吆喝。
正如微軟向OpenAI投資100億美元,將GPT全面接入自家應(yīng)用一樣,讓浩如江海的中小企業(yè)通過(guò)自己的大模型來(lái)打造屬于相應(yīng)的中小模型,是OpenAI昭示的商業(yè)落地路徑。大模型的井噴是這條路徑的復(fù)現(xiàn),遵循著相同范式——花大錢做“費(fèi)力不討好”的大模型,爭(zhēng)取市場(chǎng)地位。
這一范式實(shí)際上也不新鮮。打個(gè)比方,在數(shù)字化時(shí)代下的應(yīng)用需要一個(gè)操作系統(tǒng),微軟憑借Windows占據(jù)PC頭把交椅,即使后來(lái)者創(chuàng)造了無(wú)數(shù)使用體驗(yàn)更好的產(chǎn)品,也難以動(dòng)搖微軟的地位,因?yàn)檫@些產(chǎn)品的開發(fā)都基于Windows這個(gè)操作系統(tǒng)。
而智能化時(shí)代同樣需要操作系統(tǒng),在OpenAI進(jìn)不了國(guó)門的前提下,市場(chǎng)自然會(huì)尋求替代品,如今的大模型之爭(zhēng)本質(zhì)上是下一代操作系統(tǒng)之爭(zhēng)。面對(duì)當(dāng)下國(guó)內(nèi)大模型噴涌,APUS李濤認(rèn)為,“所有人在爭(zhēng)大模型的本質(zhì),實(shí)際上是爭(zhēng)操作系統(tǒng)的話語(yǔ)權(quán),一旦誰(shuí)能控制,就會(huì)獲得最大的商業(yè)回報(bào)”。
在他看來(lái),中小模型對(duì)應(yīng)商業(yè)場(chǎng)景,因此中小企業(yè)應(yīng)致力于此;大模型對(duì)應(yīng)行業(yè)標(biāo)準(zhǔn),獲取話語(yǔ)權(quán)意味著主導(dǎo)未來(lái)生態(tài)。
AI浪潮前,我們共同經(jīng)歷數(shù)字化,平臺(tái)作為流量的集中入口,主宰移動(dòng)互聯(lián)網(wǎng)商業(yè)的變現(xiàn)能力。AI浪潮下,我們共同經(jīng)歷智能化,大模型作為操作系統(tǒng),主宰云上的業(yè)務(wù)和應(yīng)用。誰(shuí)都想成為下一個(gè)谷歌和微軟,但過(guò)程想必不會(huì)輕松。
算力、場(chǎng)景、文本的堆砌歸根結(jié)底是一個(gè)錢字,飛蛾撲火中的玩家們有享受燒的過(guò)程的、有燃燒自己照亮他人的、當(dāng)然也有向往光明的。
正如李開復(fù)所言:“AI 2.0時(shí)代已經(jīng)到來(lái),會(huì)誕生比移動(dòng)互聯(lián)網(wǎng)大10倍的機(jī)會(huì)?!?/p>
大模型的主航道在哪?
More is different。
AI大模型或許還不是無(wú)所不能,但在要素的堆砌下,大模型無(wú)疑能兼容更多的場(chǎng)景和領(lǐng)域。如果說(shuō)大模型的第一步是通用于各行各業(yè),那么第二步飛躍便是在垂類場(chǎng)景中降本增效。
既然目標(biāo)是星辰大海,玩家們手中怎能缺了惡魔果實(shí)?
算力是AI發(fā)展的基礎(chǔ)三要素之一,是訓(xùn)練AI進(jìn)行海量數(shù)據(jù)的重復(fù)多輪處理的能力。據(jù)OpenAI測(cè)算,2012年開始,全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng),平均每3.43個(gè)月便會(huì)翻一倍,目前計(jì)算量已擴(kuò)大30萬(wàn)倍,遠(yuǎn)超算力增長(zhǎng)速度。GPT的迭代便足以直觀呈現(xiàn)算力需求的井噴,GPT-3模型參數(shù)量有1750億,是GPT-2的100余倍。下一代GPT-4模型的參數(shù)量雖未公布,但業(yè)內(nèi)人士預(yù)測(cè)其參數(shù)量足有上萬(wàn)億。
公開信息顯示,GPT-3大模型需要訓(xùn)練355個(gè)GPU/年,假設(shè)企業(yè)以一個(gè)月為期限訓(xùn)練自己的大模型,將需要4260個(gè)AI加速卡方可讓產(chǎn)品面世。而這只是參與游戲的“入場(chǎng)券”需求,更重要的是通用大模型在垂類場(chǎng)景中展現(xiàn)的效能,而效能源自于大模型在高價(jià)值文本下的不斷訓(xùn)練。
換言之,誰(shuí)手里掌握更多、更有價(jià)值、更普世的場(chǎng)景與數(shù)據(jù),誰(shuí)做出來(lái)的大模型更好。
首先我們得恭喜在移動(dòng)互聯(lián)網(wǎng)時(shí)代中把握巨大流量入口的企業(yè)們,社交、電商、搜索等人們?nèi)粘I钪胁豢杀苊獾膽?yīng)用所產(chǎn)生的數(shù)據(jù),具備讓大模型to C商業(yè)化落地的可能。其次我們還要恭喜數(shù)據(jù)庫(kù)廠商,各類垂直數(shù)據(jù)庫(kù)不可避免地成為大模型眼中的香餑餑,只是多個(gè)數(shù)據(jù)庫(kù)間不互通以及模型導(dǎo)入、存儲(chǔ)、使用等問(wèn)題還有待解決方案。
大模型是唯一的正確道路?
AI模型一定是越大越好嗎?
知名期刊《Nature》就此議題采訪了多位專家,并發(fā)表了名為《In AI,is bigger always better?》的研究,一些科學(xué)家認(rèn)為,更大的模型只是在回答訓(xùn)練數(shù)據(jù)相關(guān)范圍內(nèi)的查詢上變得更好,并不能獲得回答全新問(wèn)題的能力。
人工智能前沿的爭(zhēng)論之聲未消,但目前的通用大模型并不能真的通用于千行百業(yè)。一位業(yè)內(nèi)人士認(rèn)為,大模型最有價(jià)值的地方是通用性強(qiáng),例如可以支持?jǐn)?shù)以萬(wàn)計(jì),甚至十萬(wàn)計(jì)的小模型。
大模型雖好,卻是一門昂貴且需要耐心的事情。為了大模型的規(guī)模效應(yīng),巨量算力成本背后的芯片與電力消耗已然成為掣肘AI進(jìn)一步發(fā)展的鎖鏈。而且以目前訓(xùn)練大型語(yǔ)言模型所涉及的數(shù)據(jù)、計(jì)算能力和費(fèi)用來(lái)看,只有擁有超大計(jì)算資源的公司才能做到。
以谷歌與柏林大學(xué)合作研發(fā),用來(lái)和GPT3打?qū)ε_(tái)的PaLM為例,5400億的恐怖參數(shù)下,研究人員測(cè)算其訓(xùn)練一次的成本便上千萬(wàn)美元,谷歌自己在訓(xùn)練PaLM的兩個(gè)月內(nèi)便耗電3.4千兆瓦時(shí),這相當(dāng)于大約300個(gè)美國(guó)家庭一年的能源消耗。
即便谷歌稱其所耗能源構(gòu)成有89%為清潔能源,但目前國(guó)內(nèi)主流發(fā)電形式仍是火電和“看天吃飯”的水電。
芯片方面,由于目前國(guó)產(chǎn)自研芯片最高端水準(zhǔn)的14nm芯片只能覆蓋云計(jì)算算力需求而無(wú)法覆蓋AI算力需求,大模型構(gòu)建同樣面臨“卡脖子”問(wèn)題。大模型算力需求的英偉達(dá)GPU芯片一方面成本高昂,單塊1萬(wàn)美元到2萬(wàn)美元的售價(jià)反映在大模型構(gòu)建上,便是數(shù)十億美元。國(guó)內(nèi)大模型玩家還能騰出多少閑置芯片來(lái)訓(xùn)練大模型?例如阿里的存糧能給大模型勻多少量還是一件值得深究的事情。
再者是,目前的中國(guó)企業(yè)與個(gè)人并不是非大模型不可。即使忽視大模型真的面向千行百業(yè)后,在訓(xùn)練上將產(chǎn)生的巨額功耗與成本,我們也不能忽視目前諸多垂類行業(yè)數(shù)據(jù)稀缺、邏輯難以被AI所理解模仿的現(xiàn)狀。
而且,程序員們一定知道多任務(wù)、多線程可是會(huì)互相打架的。按照張勇在阿里云峰會(huì)上提出的“用大模型重做各個(gè)應(yīng)用”,用各行各業(yè)具有沖突性的數(shù)據(jù)訓(xùn)練,不一定能提高垂類行業(yè)使用模型的效能。在參數(shù)猛增的情況下,精度未必能一直持續(xù)上漲,即使是Transformer架構(gòu),也具有它的極限。
相同大模型“賦能”之下的同質(zhì)化人才同樣不具備競(jìng)爭(zhēng)力,而是被AI覆蓋的“時(shí)代的眼淚”。相反,如果AI能成為個(gè)人的個(gè)性化化身,是放大自身能力的小模型,說(shuō)不定還能在被大模型覆蓋的世界中殺出一條血路。
那么能不能用大模型對(duì)小模型蒸餾,讓大模型學(xué)習(xí)小模型的成果呢?目前這一做法面臨大小模型架構(gòu)差異的問(wèn)題,如何順暢互通還是未知數(shù)。
不論AI的未來(lái)是more is different還是less is more,通用大模型的“通用”二字還是要打上一個(gè)問(wèn)號(hào)。