文 | 智東西 ZeR0
編輯 | 漠影
智東西3月13日?qǐng)?bào)道,昨日,由中國(guó)人民大學(xué)高瓴人工智能學(xué)院主辦的AIGC論壇在北京舉行,本次會(huì)議以“AIGC:從不存在到存在”為議題,探討對(duì)話生成模型、多媒體內(nèi)容生成等人工智能(AI)前沿技術(shù)的發(fā)展趨勢(shì)。
在對(duì)話與語(yǔ)言生成模型專(zhuān)場(chǎng),哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授車(chē)萬(wàn)翔、中國(guó)科學(xué)院自動(dòng)化研究所研究員張家俊、中國(guó)人民大學(xué)高瓴人工智能學(xué)院長(zhǎng)聘副教授嚴(yán)睿、新浪微博資深算法專(zhuān)家張俊林分別作報(bào)告。
這場(chǎng)學(xué)術(shù)盛會(huì)干貨滿滿,不僅系統(tǒng)性地回顧了自然語(yǔ)言處理(NLP)的五個(gè)發(fā)展階段,對(duì)大型語(yǔ)言模型研究的三個(gè)主要技術(shù)路徑進(jìn)行解讀,并拆解了ChatGPT的四項(xiàng)關(guān)鍵技術(shù),還就大型語(yǔ)言模型研究重心的變遷與未來(lái)趨勢(shì)進(jìn)行探討。
01.NLP五級(jí)進(jìn)階路:從基于規(guī)則到遵循人的價(jià)值觀
新浪微博資深算法專(zhuān)家張俊林認(rèn)為,要想探尋大型語(yǔ)言模型未來(lái)怎么走,需要先回顧此前是怎么一路變遷的。他將自然語(yǔ)言處理發(fā)展到大型語(yǔ)言模型的歷程分為五個(gè)階段:規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、預(yù)訓(xùn)練、大型語(yǔ)言模型。
機(jī)器翻譯是NLP中難度最高、綜合性最強(qiáng)的任務(wù)。因此張俊林以機(jī)器翻譯任務(wù)為例來(lái)對(duì)比不同階段的特點(diǎn)以及技術(shù)棧、數(shù)據(jù)的變化,以此展示NLP如何一步步演進(jìn)。
規(guī)則階段大致從1956年到1992年,基于規(guī)則的機(jī)器翻譯系統(tǒng)是在內(nèi)部把各種功能的模塊串到一起,由人先從數(shù)據(jù)中獲取知識(shí),歸納出規(guī)則,寫(xiě)出來(lái)教給機(jī)器,然后機(jī)器來(lái)執(zhí)行這套規(guī)則,從而完成特定任務(wù)。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段大致從1993年到2012年,機(jī)器翻譯系統(tǒng)可拆成語(yǔ)言模型和翻譯模型,這里的語(yǔ)言模型與現(xiàn)在的GPT-3/3.5的技術(shù)手段一模一樣。該階段相比上一階段突變性較高,由人轉(zhuǎn)述知識(shí)變成機(jī)器自動(dòng)從數(shù)據(jù)中學(xué)習(xí)知識(shí),主流技術(shù)包括SVM、HMM、MaxEnt、CRF、LM等,當(dāng)時(shí)人工標(biāo)注數(shù)據(jù)量在百萬(wàn)級(jí)左右。
深度學(xué)習(xí)階段大致從2013-2018年,相對(duì)上一階段突變性較低,從離散匹配發(fā)展到embedding連續(xù)匹配,模型變得更大。該階段典型技術(shù)棧包括Encoder-Decoder、LSTM、Attention、Embedding等,標(biāo)注數(shù)據(jù)量提升到千萬(wàn)級(jí)。
預(yù)訓(xùn)練階段是從2018年到2022年,相比之前的最大變化是加入自監(jiān)督學(xué)習(xí),張俊林認(rèn)為這是NLP領(lǐng)域最杰出的貢獻(xiàn),將可利用數(shù)據(jù)從標(biāo)注數(shù)據(jù)拓展到了非標(biāo)注數(shù)據(jù)。該階段系統(tǒng)可分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,將預(yù)訓(xùn)練數(shù)據(jù)量擴(kuò)大3到5倍,典型技術(shù)棧包括Encoder-Decoder、Transformer、Attention等。
大型語(yǔ)言模型階段從2023年起,目的是讓機(jī)器能聽(tīng)懂人的命令、遵循人的價(jià)值觀。其特性是在第一個(gè)階段把過(guò)去的兩個(gè)階段縮成一個(gè)預(yù)訓(xùn)練階段,第二階段轉(zhuǎn)換成與人的價(jià)值觀對(duì)齊,而不是向領(lǐng)域遷移。這個(gè)階段的突變性是很高的,已經(jīng)從專(zhuān)用任務(wù)轉(zhuǎn)向通用任務(wù),或是以自然語(yǔ)言人機(jī)接口的方式呈現(xiàn)。
隨后他介紹了一個(gè)研究工作的結(jié)論:在高資源語(yǔ)言上,ChatGPT機(jī)器翻譯效果與商用MT系統(tǒng)效果接近;在低資源語(yǔ)言上,目前ChatGPT機(jī)器翻譯效果與商用MT系統(tǒng)相比差得比較遠(yuǎn)。
從這些階段中數(shù)據(jù)、算法、人機(jī)關(guān)系的變化,可以觀察到NLP的發(fā)展趨勢(shì)。
數(shù)據(jù)方面,從少量標(biāo)注數(shù)據(jù)、大量標(biāo)注數(shù)據(jù)、海量非標(biāo)注數(shù)據(jù)+少量標(biāo)注數(shù)據(jù)到海量非標(biāo)注數(shù)據(jù),越來(lái)越多數(shù)據(jù)被利用起來(lái),人的介入越來(lái)越少,未來(lái)會(huì)有更多文本數(shù)據(jù)、更多其它形態(tài)的數(shù)據(jù)被用起來(lái),更遠(yuǎn)的未來(lái)是任何我們能見(jiàn)到的電子數(shù)據(jù),都應(yīng)該讓機(jī)器自己從中學(xué)到知識(shí)或能力。
算法方面,表達(dá)能力越來(lái)越強(qiáng),規(guī)模越來(lái)越大,自主學(xué)習(xí)能力越來(lái)越強(qiáng),從專(zhuān)用向通用,沿著這個(gè)趨勢(shì)往后,未來(lái)Transformer預(yù)計(jì)夠用,同時(shí)也需要替代Transformer的新型模型,逐步邁向通用人工智能。
人機(jī)關(guān)系方面,人的角色逐漸從教導(dǎo)者轉(zhuǎn)向監(jiān)督者,未來(lái)可能會(huì)從人機(jī)協(xié)作、機(jī)器向人學(xué)習(xí),發(fā)展成人向機(jī)器學(xué)習(xí),最后由機(jī)器拓展人類(lèi)。
02.大型語(yǔ)言模型的三大技術(shù)路線:Bert、GPT、混合模式
張俊林分享道,近5年來(lái),大型語(yǔ)言模型研究的發(fā)展有三條技術(shù)路線:Bert模式、GPT模式、混合模式。其中國(guó)內(nèi)大多采用混合模式,多數(shù)主流大型語(yǔ)言模型走的是GPT技術(shù)路線,直到2022年底在GPT-3.5的基礎(chǔ)上產(chǎn)生了ChatGPT。
可以看到,到2019年后,Bert路線基本上就沒(méi)有什么標(biāo)志性的新模型出現(xiàn)了,而GPT技術(shù)路線趨于繁榮。從Bert往GPT走,模型越來(lái)越大,做的事越來(lái)越通用。
大型語(yǔ)言模型按照從數(shù)據(jù)到知識(shí)來(lái)劃分,數(shù)據(jù)可分為通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù),知識(shí)分為語(yǔ)言知識(shí)和世界知識(shí);從任務(wù)類(lèi)型來(lái)劃分,可以分為單一任務(wù)和多任務(wù)、理解類(lèi)和生成類(lèi)。
Bert模式有兩階段(雙向語(yǔ)言模型預(yù)訓(xùn)練+任務(wù)Fine-tuning),適用于理解類(lèi)、做理解類(lèi)、某個(gè)場(chǎng)景的具體任務(wù),專(zhuān)而輕。
GPT模式是由兩階段到一階段(單向語(yǔ)言模型預(yù)訓(xùn)練+zero shot prompt/Instruct),比較適合生成類(lèi)任務(wù)、多任務(wù),重而通。
T5模式將兩者的方法結(jié)合,有兩階段(單向語(yǔ)言模型預(yù)訓(xùn)練+Fine-tuning)。張俊林稱(chēng)這種模式“形似GPT,神似Bert”,生成和理解都行,從效果上看較適合理解類(lèi)任務(wù),國(guó)內(nèi)很多大型語(yǔ)言模型采用這種模式。
目前的研究結(jié)論是,如果模型規(guī)模不是特別大,面向單一領(lǐng)域的理解類(lèi)任務(wù),適合用T5模式。做生成類(lèi)任務(wù)時(shí),用GPT模式效果最好。
如果單獨(dú)考慮zero-shot,GPT模式效果最好;如果在預(yù)訓(xùn)練后引入多任務(wù)fine-tuning,則T5模式效果好。不過(guò)張俊林認(rèn)為這個(gè)結(jié)論存疑,因?yàn)槟壳暗膶?shí)驗(yàn)Encoder-Decoder都是Decoder-only參數(shù)量的兩倍。
綜合來(lái)看,當(dāng)前幾乎所有參數(shù)規(guī)模超過(guò)千億的大型語(yǔ)言模型都采取GPT模式。張俊林分析可能的原因有三點(diǎn):1、Encoder-Decoder里的雙向attention,損害zero shot能力;2、Encoder-Decoder結(jié)構(gòu)在生成Token時(shí),只能對(duì)Encoder高層做attention,Decoder-only結(jié)構(gòu)在生成Token時(shí)可以逐層Attention,信息更細(xì)粒度;3、Encoder-Decoder訓(xùn)練“中間填空”,生成最后單詞Next Token,存在不一致性,Decoder-only結(jié)構(gòu)訓(xùn)練和生成方式一致。
03.用提示學(xué)習(xí)方法,觸發(fā)大模型通用能力
從GPT的成長(zhǎng)路徑來(lái)看,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授車(chē)萬(wàn)翔談道,2018年第一代GPT真正開(kāi)啟NLP預(yù)訓(xùn)練模型時(shí)代,但沒(méi)有引起特別大的關(guān)注,其風(fēng)頭被Bert蓋住。2019年GPT-2模型的參數(shù)變得更多,但仍未引起很大轟動(dòng)。
2020年GPT-3模型發(fā)布,2022年3月InstructGPT模型問(wèn)世,當(dāng)時(shí)重點(diǎn)是用1%參數(shù)達(dá)到1750億參數(shù)的GPT-3的效果,也沒(méi)有特別令人興奮,直到ChatGPT誕生,直接推向市場(chǎng)和面向終端用戶,并憑借驚艷的效果在社會(huì)上引起廣泛關(guān)注。
為什么GPT-3問(wèn)世兩年了,還沒(méi)有受到足夠廣泛的關(guān)注?車(chē)萬(wàn)翔認(rèn)為,這是因?yàn)樗唤鉀Q了知識(shí)存儲(chǔ)問(wèn)題,尚未很好解決“知識(shí)怎么調(diào)用”的問(wèn)題,而ChatGPT相當(dāng)于解決了這一部分。兩塊打通后,就產(chǎn)生了非常好的應(yīng)用效果。
中國(guó)科學(xué)院自動(dòng)化研究所研究員張家俊介紹了ChatGPT的通用能力基座。OpenAI在2020年用45T文本數(shù)據(jù),通過(guò)自監(jiān)督訓(xùn)練獲得基礎(chǔ)大模型GPT-3,實(shí)現(xiàn)了流暢性、知識(shí)性;2021年在GPT-3基礎(chǔ)上利用179G代碼數(shù)據(jù),通過(guò)自監(jiān)督訓(xùn)練獲得邏輯編程模型Codex;2022年利用更多更新文本數(shù)據(jù)和代碼數(shù)據(jù)的混合學(xué)習(xí),得到了更強(qiáng)的基礎(chǔ)大模型GPT-3.5,這成為ChatGPT的基礎(chǔ)模型,實(shí)現(xiàn)了流暢性、知識(shí)性和邏輯性。
據(jù)他分享,大模型的通用能力由基礎(chǔ)模型決定,GPT-3用提示學(xué)習(xí)方法觸發(fā)通用能力。
參數(shù)微調(diào)通過(guò)任務(wù)相關(guān)的監(jiān)督數(shù)據(jù)修改模型參數(shù),能夠最大限度激發(fā)預(yù)訓(xùn)練大模型完成特定任務(wù)的能力,但面臨數(shù)據(jù)稀、災(zāi)難遺忘、資源浪費(fèi)、通用性差等難題。
提示學(xué)習(xí)通過(guò)設(shè)計(jì)提示信息修改輸入模式,能夠觸發(fā)預(yù)訓(xùn)練大模型完成特定任務(wù),但是單一的外部提示信號(hào)難以最大限度地激發(fā)預(yù)訓(xùn)練大模型的能力,從而高質(zhì)量完成具體任務(wù)。
將兩者結(jié)合,通過(guò)若干任務(wù)相關(guān)的經(jīng)過(guò)提示增強(qiáng)的監(jiān)督數(shù)據(jù)修改模型參數(shù),有助于激發(fā)模型的通用能力。
OpenAI聘請(qǐng)數(shù)據(jù)標(biāo)注團(tuán)隊(duì),根據(jù)各垂直領(lǐng)域問(wèn)題指令撰寫(xiě)人工答案,并從開(kāi)放的GPT-3、InstructGPT等API接口收集全球用戶的問(wèn)題指令,對(duì)其按照問(wèn)答、摘要等領(lǐng)域進(jìn)行分類(lèi);同時(shí)借助指令學(xué)習(xí),在GPT-3.5的基礎(chǔ)上利用各領(lǐng)域人工撰寫(xiě)的指令與答案對(duì)模型進(jìn)行微調(diào)。
當(dāng)模型參數(shù)規(guī)模達(dá)到百億以上時(shí),幾十個(gè)任務(wù)聯(lián)合指令學(xué)習(xí)可以解決沒(méi)有見(jiàn)過(guò)的任務(wù)。
張家俊強(qiáng)調(diào)說(shuō),任何大模型都有其能力邊界,幾乎不可能實(shí)現(xiàn)面向無(wú)限任務(wù)的通用能力,但可以通過(guò)讓大模型學(xué)會(huì)與其他模型、工具和環(huán)境進(jìn)行交互,實(shí)現(xiàn)大模型通用能力的拓展。
紫東太初多模態(tài)大模型便嘗試模型交互實(shí)現(xiàn)通用多模態(tài)對(duì)話。這是一個(gè)擁有千億參數(shù)規(guī)模的圖文音三模態(tài)大模型,通過(guò)學(xué)會(huì)API的使用,讓較小的語(yǔ)言大模型擁有通用的多模態(tài)對(duì)話能力。3月24日,張家俊將在「GTIC 2023中國(guó)AIGC創(chuàng)新峰會(huì)」上發(fā)表演講,分享紫東太初大模型的更多進(jìn)展。
04.解讀ChatGPT四大關(guān)鍵技術(shù)
下圖是車(chē)萬(wàn)翔分享的從GPT-3到ChatGPT的技術(shù)演化路徑。
總體而言,ChatGPT有四個(gè)關(guān)鍵技術(shù):
1、大規(guī)模預(yù)訓(xùn)練模型:只有模型規(guī)模足夠大,才可能具備推理能力。中國(guó)人民大學(xué)高瓴人工智能學(xué)院長(zhǎng)聘副教授嚴(yán)睿談道,智能涌現(xiàn)不是故意設(shè)計(jì)出來(lái)的,而是大模型規(guī)模大到一定程度后,天然具備這樣的特性。
2、在代碼上進(jìn)行預(yù)訓(xùn)練:可能代碼把解決一個(gè)大的問(wèn)題分解成若干個(gè)小的問(wèn)題,這種分布解決問(wèn)題的方式有助于自然語(yǔ)言推理。和自然語(yǔ)言模型相比,代碼語(yǔ)言模型需要更長(zhǎng)的上下文的依賴(lài)。
3、Prompt/Instruction Tuning:GPT-3模型太大,已經(jīng)沒(méi)辦法去精調(diào)了,只能用prompt,但是如果不精調(diào),模型相當(dāng)于還是一個(gè)語(yǔ)言模型,沒(méi)辦法適應(yīng)人,只能由人去適應(yīng)模型。讓人適應(yīng)模型只能用指令的方式,再進(jìn)行精調(diào),這相比預(yù)訓(xùn)練代價(jià)要小的多。所以指令上精調(diào)就可以把一些不太多的數(shù)據(jù),把語(yǔ)言模型的任務(wù)掰到適應(yīng)人類(lèi)的回答問(wèn)題。
4、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF):這對(duì)于結(jié)果好壞的影響不是特別大,甚至?xí)拗普Z(yǔ)言模型生成的能力,但這種方式可能更好地和人類(lèi)在安全性、無(wú)毒無(wú)害等等方面的價(jià)值觀對(duì)齊。當(dāng)模型上線后,它可以收集到更多用戶的反饋。
嚴(yán)睿認(rèn)為Human-in-the-Loop可能是大型語(yǔ)言模型成功的一個(gè)重要因素,通過(guò)RLHF不斷獲得人類(lèi)反饋,將人的指令與機(jī)器的理解逐漸對(duì)齊,實(shí)現(xiàn)智能的不斷演化。
展望未來(lái),ChatGPT能發(fā)展多久?車(chē)萬(wàn)翔發(fā)現(xiàn)了一個(gè)有意思的規(guī)律。如圖所示,每個(gè)箭頭長(zhǎng)短代表技術(shù)發(fā)展的時(shí)間長(zhǎng)度,可以看到,新技術(shù)的發(fā)展時(shí)間大約是舊技術(shù)的一半,以此推演,預(yù)訓(xùn)練模型可能發(fā)展五年到2023年,再往后可能到2025年左右會(huì)有新技術(shù)產(chǎn)生。
05.大模型的未來(lái):多模態(tài)、具身智能、社會(huì)交際
車(chē)萬(wàn)翔認(rèn)為,ChatGPT可以說(shuō)是繼數(shù)據(jù)庫(kù)和搜索引擎后的全新一代知識(shí)表示和檢索的方法。
從知識(shí)表示和運(yùn)用角度來(lái)看,知識(shí)在計(jì)算機(jī)內(nèi)如何表示是人工智能最核心的問(wèn)題之一。早期是通過(guò)關(guān)系型數(shù)據(jù)庫(kù)的方式,精度較高,因?yàn)閿?shù)據(jù)庫(kù)中每行每列的語(yǔ)義都非常明確,問(wèn)題是調(diào)用的自然度極低,必須由人去學(xué)習(xí)機(jī)器的語(yǔ)言,早期這些存儲(chǔ)方式產(chǎn)生了Oracle、微軟等科技巨頭。
后來(lái)互聯(lián)網(wǎng)上存儲(chǔ)了人類(lèi)全部的知識(shí),這種知識(shí)表達(dá)方式不如數(shù)據(jù)庫(kù)精確,但存儲(chǔ)量大、信息多,調(diào)取這些知識(shí)需要借助搜索引擎、通過(guò)關(guān)鍵詞的方式,關(guān)鍵詞和SQL語(yǔ)句比起來(lái)就更為廣大用戶所接受,表達(dá)自然度更好,但仍然不及自然語(yǔ)言,產(chǎn)生谷歌、百度等科技巨頭。
到大模型時(shí)代,可以認(rèn)為大模型也是一種知識(shí)存儲(chǔ)的方式,不是以人能看懂的方式來(lái)存儲(chǔ),而是以參數(shù)的方式來(lái)存儲(chǔ),可讀性、精度相對(duì)較低,但調(diào)用方式非常自然,通過(guò)自然語(yǔ)言就能調(diào)出大模型中的知識(shí)。車(chē)萬(wàn)翔相信和前兩次革命一樣,大模型時(shí)代會(huì)出現(xiàn)新的科技巨頭,現(xiàn)在看來(lái)OpenAI非常具有這樣的潛力,領(lǐng)先優(yōu)勢(shì)明顯。
談到大型語(yǔ)言模型研究的重心,車(chē)萬(wàn)翔和張俊林都認(rèn)為除了語(yǔ)言外,還需要更多知識(shí)。
關(guān)于NLP的過(guò)去、現(xiàn)在、未來(lái),科學(xué)家們?cè)?020年提出了一個(gè)world scope概念,將NLP的發(fā)展進(jìn)程分為語(yǔ)料庫(kù)、互聯(lián)網(wǎng)、多模態(tài)、具身智能、社會(huì)交際這五個(gè)world scope。
早期NLP基于文本,再往后發(fā)展要走向多模態(tài)、具身認(rèn)知、社會(huì)交際。ChatGPT已經(jīng)似乎有與人類(lèi)社會(huì)互動(dòng)的意思,相當(dāng)于是跳過(guò)了中間兩步,但車(chē)萬(wàn)翔認(rèn)為,要真正實(shí)現(xiàn)通用人工智能,中間這兩步是不能跳的,不然就像盲人在學(xué)語(yǔ)言。據(jù)傳GPT-4會(huì)是一個(gè)多模態(tài)大模型,如果解決了多模態(tài)這一步,那就只剩下具身了。
多模態(tài)大型語(yǔ)言模型的目標(biāo)是增強(qiáng)更多的現(xiàn)實(shí)環(huán)境感知能力,包括視覺(jué)輸入(圖片、視頻)、聽(tīng)覺(jué)輸入(音頻)、觸覺(jué)輸入(壓力)等等。張俊林認(rèn)為,目前阻礙多模態(tài)大模型發(fā)展的一個(gè)障礙是其很大程度上依賴(lài)于人工整理的大數(shù)據(jù)集,圖像處理的自監(jiān)督技術(shù)路線尚未走通,如果走通可能會(huì)是又一大技術(shù)突破,一些圖像理解類(lèi)任務(wù)大概率會(huì)被融入大型語(yǔ)言模型,不再單獨(dú)存在。
多模態(tài)大模型是具身智能的基礎(chǔ),相當(dāng)于大腦,它還需要身體,才能與物理世界的交互。因此下一步就是將大腦與身體(如機(jī)器人等)結(jié)合的具身智能,利用強(qiáng)化學(xué)習(xí),從真實(shí)世界獲得真實(shí)反饋、學(xué)習(xí)新的知識(shí)。
另一個(gè)值得探討的話題是大型語(yǔ)言模型的規(guī)模,做大還是做小?
張俊林談道,一方面,Scaling Law說(shuō)明了模型規(guī)模越大,數(shù)據(jù)越多,訓(xùn)練越充分,大型語(yǔ)言模型的效果越好;另一方面,訓(xùn)練成本太高了,Chinchilla證明了如果在數(shù)據(jù)充足的前提下,目前大型語(yǔ)言模型的規(guī)模比應(yīng)有的合理大小更大些,似乎存在參數(shù)空間浪費(fèi)。因此應(yīng)該是:先把模型做小,充分利用模型參數(shù)后,再將模型做大。
除此之外,張俊林認(rèn)為大型語(yǔ)言模型的復(fù)雜推理能力未來(lái)將進(jìn)一步提升。大型語(yǔ)言模型如何與專(zhuān)用工具結(jié)合也是非常有前景的方向,但技術(shù)尚不成熟,他判斷OpenAI應(yīng)該不會(huì)走這條路。
大型語(yǔ)言模型還有很多問(wèn)題有待克服,包括構(gòu)建中文評(píng)測(cè)數(shù)據(jù)集、優(yōu)化新知識(shí)的獲取、優(yōu)化舊知識(shí)的修正、探索私域領(lǐng)域知識(shí)的融入、優(yōu)化更好理解命令的能力、降低訓(xùn)練推理成本等等。
06.結(jié)語(yǔ):大模型與生成式AI駛?cè)肟燔?chē)道
自然語(yǔ)言處理被譽(yù)為人工智能皇冠上的明珠,而其最新代表之作ChatGPT憑借卓越的多輪對(duì)話和內(nèi)容生成能力,正掀起新一輪人工智能研究、商用及創(chuàng)業(yè)熱潮。
ChatGPT仍有很多問(wèn)題,比如事實(shí)檢索性和復(fù)雜計(jì)算性效果差,無(wú)法實(shí)現(xiàn)一些實(shí)時(shí)性、動(dòng)態(tài)變化性的任務(wù)等。但優(yōu)化這些問(wèn)題以及提升大模型能力的研究正在飛速推進(jìn)。
如果上周微軟德國(guó)公司CTO兼AI部門(mén)主管Andreas Braun透露的信息為真,那么本周OpenAI將發(fā)布更強(qiáng)大的GPT-4多模態(tài)大模型,打通認(rèn)知與感知的連接。百度基于文心大模型研發(fā)的生成式對(duì)話產(chǎn)品“文心一言”也將于本周四3月16日正式發(fā)布。微軟將在周五舉行主題為“與AI一起工作的未來(lái)”的在線活動(dòng)。大模型與生成式AI領(lǐng)域正變得愈發(fā)熱鬧。