正在閱讀:

Meta連夜加入AI大模型混戰(zhàn)!用1/10參數(shù)量干過(guò)GPT-3,單個(gè)GPU就能跑

掃一掃下載界面新聞APP

Meta連夜加入AI大模型混戰(zhàn)!用1/10參數(shù)量干過(guò)GPT-3,單個(gè)GPU就能跑

Meta 70-650億參數(shù)模型發(fā)布,性能不輸幾千億參數(shù)模型。

編譯|智東西 程茜

編輯|心緣

智東西2月25日?qǐng)?bào)道,圍繞生成式AI的前沿技術(shù)競(jìng)爭(zhēng)愈發(fā)膠著。就在昨晚,Meta突然公布了一款全新的AI大型語(yǔ)言模型LLaMA,宣稱可幫助研究人員降低生成式AI工具可能帶來(lái)的“偏見、有毒評(píng)論、產(chǎn)生錯(cuò)誤信息的可能性”等問(wèn)題。

此前在最新季度財(cái)報(bào)電話會(huì)議中,Meta CEO扎克伯格提到“生成式AI”的次數(shù)比“元宇宙”還要多。如今,Meta帶來(lái)了一個(gè)利好研究學(xué)者的AI重磅成果——僅用約1/10的參數(shù)規(guī)模,實(shí)現(xiàn)了匹敵OpenAI GPT-3、DeepMind Chinchilla、谷歌PaLM等主流大模型的性能表現(xiàn)。

Meta介紹LLaMA論文

Meta目前提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型。

根據(jù)論文,在一些基準(zhǔn)測(cè)試中,僅有130億參數(shù)的LLaMA模型,性能表現(xiàn)超過(guò)了擁有1750億參數(shù)的GPT-3,而且能跑在單個(gè)GPU上;擁有650億參數(shù)的LLaMA模型,能夠跟擁有700億參數(shù)的Chinchilla、擁有5400億參數(shù)的PaLM“競(jìng)爭(zhēng)”。

要知道,GPT-3是AI聊天機(jī)器人ChatGPT背后大模型GPT-3.5的前代,GPT-3.5的參數(shù)量也高達(dá)1750億;而谷歌驅(qū)動(dòng)對(duì)話式AI應(yīng)用Bard進(jìn)行搜索查詢的模型,參數(shù)量比5400億還要多。

這是大模型研究邁出的重要一步!隨著技術(shù)持續(xù)優(yōu)化,未來(lái)有朝一日,你也許能在自己的筆記本電腦乃至手機(jī)上跑類ChatGPT功能的語(yǔ)言模型。

扎克伯格說(shuō),LLaMA“在生成文本、進(jìn)行對(duì)話、總結(jié)書面材料以及解決數(shù)學(xué)定理或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等更復(fù)雜的任務(wù)方面表現(xiàn)出了很大的潛力”。

扎克伯格Facebook貼文

值得一提的是,Meta宣布LLaMA基礎(chǔ)大型語(yǔ)言模型“開源”,不作商用目的,免費(fèi)供給研究人員。目前Meta在GitHub上提供了精簡(jiǎn)版LLaMA。

01 擁有70-650億參數(shù),20種語(yǔ)言訓(xùn)練

LLaMA作為一種基礎(chǔ)大型語(yǔ)言模型,相比于GPT-3等模型,其可以讓開發(fā)人員使用更少的計(jì)算能力和資源來(lái)進(jìn)行測(cè)試。

目前,科技巨頭玩家在大型語(yǔ)言模型領(lǐng)域開展軍備競(jìng)賽,并且有多個(gè)成果面世。但研發(fā)人員在運(yùn)行此類大模型時(shí)往往需要大量的資源投入,導(dǎo)致部分開發(fā)人員并不能全面研究訪問(wèn)這些模型。

而這種限制就會(huì)阻礙人員去理解這些模型的工作模式和功能,并且使得他們?cè)谡{(diào)整模型的偏見、發(fā)生錯(cuò)誤的可能性上會(huì)較為困難。

作為一個(gè)基礎(chǔ)模型,LLaMA不是為特定任務(wù)而設(shè)計(jì),Meta研究人員通過(guò)標(biāo)記一些Tokens等來(lái)訓(xùn)練基礎(chǔ)模型,其優(yōu)勢(shì)在于更容易針對(duì)特定潛在產(chǎn)品應(yīng)用進(jìn)行再訓(xùn)練和微調(diào)。

不同于Chinchilla、PaLM、GPT-3等大模型,LLaMA只使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,其中包括開放數(shù)據(jù)平臺(tái)Common Crawl、英文文檔數(shù)據(jù)集C4、代碼平臺(tái)GitHub、維基百科、論文預(yù)印本平臺(tái)ArXiv等。項(xiàng)目成員稱,這是為了使其工作與開源兼容和可復(fù)現(xiàn)。

總體來(lái)看,整個(gè)訓(xùn)練數(shù)據(jù)集在標(biāo)記化后大約包含1.4萬(wàn)億個(gè)Tokens。

其中,擁有650億參數(shù)的LLaMA和擁有330億參數(shù)的LLaMA使用1.4萬(wàn)億Tokens進(jìn)行訓(xùn)練,最小的擁有70億參數(shù)的LLaMA在1萬(wàn)億Tokens上進(jìn)行了訓(xùn)練。

擁有不同參數(shù)的模型與訓(xùn)練損失的關(guān)系圖

與其他大型語(yǔ)言模型一樣,LLaMA的工作原理是將一系列Tokens作為輸入,并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本,Meta使用了20種語(yǔ)言對(duì)其進(jìn)行訓(xùn)練。

此外,大型語(yǔ)言模型中還可能會(huì)遇到生成偏見、不良信息、不實(shí)信息的風(fēng)險(xiǎn),基于共享LLaMA的代碼,其他開發(fā)人員可以測(cè)試限制或消除大型語(yǔ)言模型中這些問(wèn)題的方法。

02 7項(xiàng)AI能力,不輸業(yè)界主流大模型

在測(cè)試過(guò)程中,研究人員采用0-shot和1-shot、5-shot、64-shot幾種方式,將LLaMA與GPT-3、Gopher、Chinchilla等模型進(jìn)行了比較。

尤其值得一提的是,130億參數(shù)LLaMA模型在單個(gè)GPU上運(yùn)行時(shí),性能表現(xiàn)可能超過(guò)1750億參數(shù)GPT-3。這也許會(huì)給類ChatGPT產(chǎn)品跑在消費(fèi)級(jí)硬件上打開新的大門。

1、常識(shí)推理(Common Sense Reasoning)

LLaMA涵蓋了八個(gè)標(biāo)準(zhǔn)常識(shí)性數(shù)據(jù)基準(zhǔn),包括BoolQ、PIQA等。這些數(shù)據(jù)集包括完形填空、多項(xiàng)選擇題和問(wèn)答等。

結(jié)果顯示,擁有650億參數(shù)的LLaMA在BoolQ以外的所有報(bào)告基準(zhǔn)上均超過(guò)擁有700億參數(shù)的Chinchilla。同時(shí),除BoolQ和WinoGrande外,該模型測(cè)試中均超過(guò)擁有5400億參數(shù)的PaLM。

擁有130億參數(shù)的LLaMA模型在大多數(shù)基準(zhǔn)測(cè)試上也優(yōu)于擁有1750億參數(shù)的GPT-3。

2、閉卷問(wèn)答(Closed-book Question Answering)

研究人員就閉卷答疑對(duì)LLaMA進(jìn)行了測(cè)試,該基準(zhǔn)測(cè)試的數(shù)據(jù)集包含閱讀理解與問(wèn)答的大規(guī)模語(yǔ)料集TriviaQA以及自然問(wèn)題。

擁有650億參數(shù)的LLaMA在0-shot和1-shot條件下,實(shí)現(xiàn)了較好的性能。

在推理過(guò)程中,擁有130億參數(shù)的LLaMA在一個(gè)V100 GPU上運(yùn)行,其基準(zhǔn)測(cè)試結(jié)果顯示,與GPT-3和Chinchilla不相上下。

3、閱讀理解(Reading Comprehension)

在閱讀理解能力方面,LLaMA通過(guò)大型深層閱讀理解任務(wù)數(shù)據(jù)集RACE評(píng)估,擁有650億參數(shù)的LLaMA與擁有5400億參數(shù)的PaLM相差并不大。

4、數(shù)學(xué)推理(Mathematical reasoning)

研究人員根據(jù)兩個(gè)數(shù)學(xué)基準(zhǔn)評(píng)估LLaMA模型,分別是包含中學(xué)和高中數(shù)學(xué)問(wèn)題的數(shù)據(jù)集MATH、OpenAI發(fā)布的小學(xué)數(shù)學(xué)題數(shù)據(jù)集GSM8k。

其比較模型對(duì)象是,從ArXiv和Math Web Pages提取的擁有385億數(shù)據(jù)進(jìn)行微調(diào)的PaLM模型Minerva。

結(jié)果顯示,在GSM8k上,擁有650億參數(shù)的LLaMA優(yōu)于擁有620億參數(shù)的Minerva。

5、代碼生成(Code generation)

基于編程代碼開源數(shù)據(jù)集HumanEval和小型數(shù)據(jù)集MBPP,被評(píng)估的模型將會(huì)收到幾個(gè)句子中的程序描述以及輸入輸出實(shí)例,然后生成一個(gè)符合描述并能夠完成測(cè)試的Python程序。

對(duì)于擁有相似參數(shù)的模型,LLaMA優(yōu)于其他通用模型。

6、大規(guī)模多任務(wù)語(yǔ)言理解(Massive Multitask LanguageUnderstanding)

這一數(shù)據(jù)集基準(zhǔn)涵蓋人文科學(xué)、STEM、社會(huì)科學(xué)等各種知識(shí)領(lǐng)域的多項(xiàng)選擇題。

經(jīng)比較,研究人員發(fā)現(xiàn),擁有650億參數(shù)的LLaMA在大多數(shù)領(lǐng)域平均落后于擁有700億參數(shù)的Chinchilla和擁有5400億參數(shù)的PaLM幾個(gè)百分點(diǎn)。

研究人員猜測(cè),其中一個(gè)可能的原因是,他們?cè)谟?xùn)練前使用的數(shù)據(jù)集較為有限,包括177GB大小的ArXiv、Gutenberg和Books3,而其余模型的訓(xùn)練數(shù)據(jù)足有2TB大小。

7、訓(xùn)練期間的能力進(jìn)化(Evolution of performance during training)

在訓(xùn)練過(guò)程中,研發(fā)人員跟蹤了LLaMA在一些問(wèn)題回答和常識(shí)性基準(zhǔn)上的表現(xiàn),其都保持穩(wěn)步提高。

不過(guò)針對(duì)于相關(guān)數(shù)據(jù)集的評(píng)估,研究人員認(rèn)為其存在許多性能差異,該基準(zhǔn)的結(jié)果并不可靠。

03 去年曾發(fā)布Galactica大模型但因偏見和造假火速下架

關(guān)于大模型的研究如今在AI領(lǐng)域十分火熱。其基本原理就是通過(guò)獲取新聞、社交媒體或其他互聯(lián)網(wǎng)資源上的文本,來(lái)訓(xùn)練軟件,使得基于大模型生成的產(chǎn)品可以在用戶給出提示或查詢搜索時(shí)自行預(yù)測(cè)和生成內(nèi)容,其目前最直觀的例子就是最近爆火的聊天機(jī)器人ChatGPT。

也正由于這一現(xiàn)象級(jí)消費(fèi)級(jí)應(yīng)用的推動(dòng),使得科技巨頭開始構(gòu)建基于大模型的產(chǎn)品測(cè)試,并將生成式AI視作新競(jìng)爭(zhēng)領(lǐng)域。

年初,微軟向聊天機(jī)器人ChatGPT的創(chuàng)造者OpenAI投資了數(shù)十億美元,隨后,微軟推出了其ChatGPT版新Bing搜索引擎。谷歌很快也加入競(jìng)賽,該公司基于其大型語(yǔ)言LaMDA推出類似的對(duì)話式AI應(yīng)用程序Bard。

去年5月,Meta也曾發(fā)布了擁有1750億參數(shù)的OPT大型語(yǔ)言模型,這一模型的適用對(duì)象也是開發(fā)人員,是生成其聊天機(jī)器人BlenderBot的基礎(chǔ)模型。半年后,Meta推出名為Galactica的語(yǔ)言模型,該模型可以撰寫科學(xué)文章并解決數(shù)學(xué)問(wèn)題,但在推出三天后,這一模型就因經(jīng)常胡言亂語(yǔ)以及給出虛假信息被撤下。

國(guó)外投資機(jī)構(gòu)DA Davidson高級(jí)軟件分析師Gil Luria認(rèn)為:“Meta今天的公告似乎是測(cè)試他們生成式AI能力的一步,這樣他們就可以在未來(lái)將它們應(yīng)用到產(chǎn)品中?!?/p>

他還補(bǔ)充道:“生成式AI作為AI的一種新應(yīng)用,Meta對(duì)此經(jīng)驗(yàn)較少,但顯然對(duì)其未來(lái)的業(yè)務(wù)很重要?!?/p>

04 結(jié)語(yǔ):生成式AI競(jìng)賽不斷升溫

大型語(yǔ)言模型已經(jīng)在生成創(chuàng)意文本、解決數(shù)學(xué)問(wèn)題、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)、回答閱讀理解問(wèn)題等方面展示出了巨大的潛力,如今ChatGPT的發(fā)布使得其在消費(fèi)級(jí)應(yīng)用市場(chǎng)中爆發(fā)。

繼微軟、谷歌之后,Meta也試圖在這一領(lǐng)域展現(xiàn)自己的技術(shù)優(yōu)勢(shì)。

在科技大廠紛紛亮出生成式AI商用計(jì)劃之時(shí),Meta難得地聚焦在研究貢獻(xiàn)上,無(wú)論是用更多數(shù)據(jù)訓(xùn)練出的更少參數(shù)規(guī)模模型實(shí)現(xiàn)優(yōu)于更大參數(shù)規(guī)模模型的研究成果,還是將LLaMA模型和權(quán)重開源開放,都令人感到耳目一新。

但也由于僅限于研究用途,這可能導(dǎo)致Meta短期內(nèi)難以在生成式AI領(lǐng)域形成像OpenAI、谷歌那樣的影響力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

Facebook

5k
  • Meta、谷歌等多家互聯(lián)網(wǎng)公司再遭學(xué)區(qū)起訴
  • 被指設(shè)計(jì)使青少年上網(wǎng)成癮程序,美法官駁回Meta撤銷指控請(qǐng)求

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

Meta連夜加入AI大模型混戰(zhàn)!用1/10參數(shù)量干過(guò)GPT-3,單個(gè)GPU就能跑

Meta 70-650億參數(shù)模型發(fā)布,性能不輸幾千億參數(shù)模型。

編譯|智東西 程茜

編輯|心緣

智東西2月25日?qǐng)?bào)道,圍繞生成式AI的前沿技術(shù)競(jìng)爭(zhēng)愈發(fā)膠著。就在昨晚,Meta突然公布了一款全新的AI大型語(yǔ)言模型LLaMA,宣稱可幫助研究人員降低生成式AI工具可能帶來(lái)的“偏見、有毒評(píng)論、產(chǎn)生錯(cuò)誤信息的可能性”等問(wèn)題。

此前在最新季度財(cái)報(bào)電話會(huì)議中,Meta CEO扎克伯格提到“生成式AI”的次數(shù)比“元宇宙”還要多。如今,Meta帶來(lái)了一個(gè)利好研究學(xué)者的AI重磅成果——僅用約1/10的參數(shù)規(guī)模,實(shí)現(xiàn)了匹敵OpenAI GPT-3、DeepMind Chinchilla、谷歌PaLM等主流大模型的性能表現(xiàn)。

Meta介紹LLaMA論文

Meta目前提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型。

根據(jù)論文,在一些基準(zhǔn)測(cè)試中,僅有130億參數(shù)的LLaMA模型,性能表現(xiàn)超過(guò)了擁有1750億參數(shù)的GPT-3,而且能跑在單個(gè)GPU上;擁有650億參數(shù)的LLaMA模型,能夠跟擁有700億參數(shù)的Chinchilla、擁有5400億參數(shù)的PaLM“競(jìng)爭(zhēng)”。

要知道,GPT-3是AI聊天機(jī)器人ChatGPT背后大模型GPT-3.5的前代,GPT-3.5的參數(shù)量也高達(dá)1750億;而谷歌驅(qū)動(dòng)對(duì)話式AI應(yīng)用Bard進(jìn)行搜索查詢的模型,參數(shù)量比5400億還要多。

這是大模型研究邁出的重要一步!隨著技術(shù)持續(xù)優(yōu)化,未來(lái)有朝一日,你也許能在自己的筆記本電腦乃至手機(jī)上跑類ChatGPT功能的語(yǔ)言模型。

扎克伯格說(shuō),LLaMA“在生成文本、進(jìn)行對(duì)話、總結(jié)書面材料以及解決數(shù)學(xué)定理或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等更復(fù)雜的任務(wù)方面表現(xiàn)出了很大的潛力”。

扎克伯格Facebook貼文

值得一提的是,Meta宣布LLaMA基礎(chǔ)大型語(yǔ)言模型“開源”,不作商用目的,免費(fèi)供給研究人員。目前Meta在GitHub上提供了精簡(jiǎn)版LLaMA。

01 擁有70-650億參數(shù),20種語(yǔ)言訓(xùn)練

LLaMA作為一種基礎(chǔ)大型語(yǔ)言模型,相比于GPT-3等模型,其可以讓開發(fā)人員使用更少的計(jì)算能力和資源來(lái)進(jìn)行測(cè)試。

目前,科技巨頭玩家在大型語(yǔ)言模型領(lǐng)域開展軍備競(jìng)賽,并且有多個(gè)成果面世。但研發(fā)人員在運(yùn)行此類大模型時(shí)往往需要大量的資源投入,導(dǎo)致部分開發(fā)人員并不能全面研究訪問(wèn)這些模型。

而這種限制就會(huì)阻礙人員去理解這些模型的工作模式和功能,并且使得他們?cè)谡{(diào)整模型的偏見、發(fā)生錯(cuò)誤的可能性上會(huì)較為困難。

作為一個(gè)基礎(chǔ)模型,LLaMA不是為特定任務(wù)而設(shè)計(jì),Meta研究人員通過(guò)標(biāo)記一些Tokens等來(lái)訓(xùn)練基礎(chǔ)模型,其優(yōu)勢(shì)在于更容易針對(duì)特定潛在產(chǎn)品應(yīng)用進(jìn)行再訓(xùn)練和微調(diào)。

不同于Chinchilla、PaLM、GPT-3等大模型,LLaMA只使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,其中包括開放數(shù)據(jù)平臺(tái)Common Crawl、英文文檔數(shù)據(jù)集C4、代碼平臺(tái)GitHub、維基百科、論文預(yù)印本平臺(tái)ArXiv等。項(xiàng)目成員稱,這是為了使其工作與開源兼容和可復(fù)現(xiàn)。

總體來(lái)看,整個(gè)訓(xùn)練數(shù)據(jù)集在標(biāo)記化后大約包含1.4萬(wàn)億個(gè)Tokens。

其中,擁有650億參數(shù)的LLaMA和擁有330億參數(shù)的LLaMA使用1.4萬(wàn)億Tokens進(jìn)行訓(xùn)練,最小的擁有70億參數(shù)的LLaMA在1萬(wàn)億Tokens上進(jìn)行了訓(xùn)練。

擁有不同參數(shù)的模型與訓(xùn)練損失的關(guān)系圖

與其他大型語(yǔ)言模型一樣,LLaMA的工作原理是將一系列Tokens作為輸入,并預(yù)測(cè)下一個(gè)單詞以遞歸生成文本,Meta使用了20種語(yǔ)言對(duì)其進(jìn)行訓(xùn)練。

此外,大型語(yǔ)言模型中還可能會(huì)遇到生成偏見、不良信息、不實(shí)信息的風(fēng)險(xiǎn),基于共享LLaMA的代碼,其他開發(fā)人員可以測(cè)試限制或消除大型語(yǔ)言模型中這些問(wèn)題的方法。

02 7項(xiàng)AI能力,不輸業(yè)界主流大模型

在測(cè)試過(guò)程中,研究人員采用0-shot和1-shot、5-shot、64-shot幾種方式,將LLaMA與GPT-3、Gopher、Chinchilla等模型進(jìn)行了比較。

尤其值得一提的是,130億參數(shù)LLaMA模型在單個(gè)GPU上運(yùn)行時(shí),性能表現(xiàn)可能超過(guò)1750億參數(shù)GPT-3。這也許會(huì)給類ChatGPT產(chǎn)品跑在消費(fèi)級(jí)硬件上打開新的大門。

1、常識(shí)推理(Common Sense Reasoning)

LLaMA涵蓋了八個(gè)標(biāo)準(zhǔn)常識(shí)性數(shù)據(jù)基準(zhǔn),包括BoolQ、PIQA等。這些數(shù)據(jù)集包括完形填空、多項(xiàng)選擇題和問(wèn)答等。

結(jié)果顯示,擁有650億參數(shù)的LLaMA在BoolQ以外的所有報(bào)告基準(zhǔn)上均超過(guò)擁有700億參數(shù)的Chinchilla。同時(shí),除BoolQ和WinoGrande外,該模型測(cè)試中均超過(guò)擁有5400億參數(shù)的PaLM。

擁有130億參數(shù)的LLaMA模型在大多數(shù)基準(zhǔn)測(cè)試上也優(yōu)于擁有1750億參數(shù)的GPT-3。

2、閉卷問(wèn)答(Closed-book Question Answering)

研究人員就閉卷答疑對(duì)LLaMA進(jìn)行了測(cè)試,該基準(zhǔn)測(cè)試的數(shù)據(jù)集包含閱讀理解與問(wèn)答的大規(guī)模語(yǔ)料集TriviaQA以及自然問(wèn)題。

擁有650億參數(shù)的LLaMA在0-shot和1-shot條件下,實(shí)現(xiàn)了較好的性能。

在推理過(guò)程中,擁有130億參數(shù)的LLaMA在一個(gè)V100 GPU上運(yùn)行,其基準(zhǔn)測(cè)試結(jié)果顯示,與GPT-3和Chinchilla不相上下。

3、閱讀理解(Reading Comprehension)

在閱讀理解能力方面,LLaMA通過(guò)大型深層閱讀理解任務(wù)數(shù)據(jù)集RACE評(píng)估,擁有650億參數(shù)的LLaMA與擁有5400億參數(shù)的PaLM相差并不大。

4、數(shù)學(xué)推理(Mathematical reasoning)

研究人員根據(jù)兩個(gè)數(shù)學(xué)基準(zhǔn)評(píng)估LLaMA模型,分別是包含中學(xué)和高中數(shù)學(xué)問(wèn)題的數(shù)據(jù)集MATH、OpenAI發(fā)布的小學(xué)數(shù)學(xué)題數(shù)據(jù)集GSM8k。

其比較模型對(duì)象是,從ArXiv和Math Web Pages提取的擁有385億數(shù)據(jù)進(jìn)行微調(diào)的PaLM模型Minerva。

結(jié)果顯示,在GSM8k上,擁有650億參數(shù)的LLaMA優(yōu)于擁有620億參數(shù)的Minerva。

5、代碼生成(Code generation)

基于編程代碼開源數(shù)據(jù)集HumanEval和小型數(shù)據(jù)集MBPP,被評(píng)估的模型將會(huì)收到幾個(gè)句子中的程序描述以及輸入輸出實(shí)例,然后生成一個(gè)符合描述并能夠完成測(cè)試的Python程序。

對(duì)于擁有相似參數(shù)的模型,LLaMA優(yōu)于其他通用模型。

6、大規(guī)模多任務(wù)語(yǔ)言理解(Massive Multitask LanguageUnderstanding)

這一數(shù)據(jù)集基準(zhǔn)涵蓋人文科學(xué)、STEM、社會(huì)科學(xué)等各種知識(shí)領(lǐng)域的多項(xiàng)選擇題。

經(jīng)比較,研究人員發(fā)現(xiàn),擁有650億參數(shù)的LLaMA在大多數(shù)領(lǐng)域平均落后于擁有700億參數(shù)的Chinchilla和擁有5400億參數(shù)的PaLM幾個(gè)百分點(diǎn)。

研究人員猜測(cè),其中一個(gè)可能的原因是,他們?cè)谟?xùn)練前使用的數(shù)據(jù)集較為有限,包括177GB大小的ArXiv、Gutenberg和Books3,而其余模型的訓(xùn)練數(shù)據(jù)足有2TB大小。

7、訓(xùn)練期間的能力進(jìn)化(Evolution of performance during training)

在訓(xùn)練過(guò)程中,研發(fā)人員跟蹤了LLaMA在一些問(wèn)題回答和常識(shí)性基準(zhǔn)上的表現(xiàn),其都保持穩(wěn)步提高。

不過(guò)針對(duì)于相關(guān)數(shù)據(jù)集的評(píng)估,研究人員認(rèn)為其存在許多性能差異,該基準(zhǔn)的結(jié)果并不可靠。

03 去年曾發(fā)布Galactica大模型但因偏見和造假火速下架

關(guān)于大模型的研究如今在AI領(lǐng)域十分火熱。其基本原理就是通過(guò)獲取新聞、社交媒體或其他互聯(lián)網(wǎng)資源上的文本,來(lái)訓(xùn)練軟件,使得基于大模型生成的產(chǎn)品可以在用戶給出提示或查詢搜索時(shí)自行預(yù)測(cè)和生成內(nèi)容,其目前最直觀的例子就是最近爆火的聊天機(jī)器人ChatGPT。

也正由于這一現(xiàn)象級(jí)消費(fèi)級(jí)應(yīng)用的推動(dòng),使得科技巨頭開始構(gòu)建基于大模型的產(chǎn)品測(cè)試,并將生成式AI視作新競(jìng)爭(zhēng)領(lǐng)域。

年初,微軟向聊天機(jī)器人ChatGPT的創(chuàng)造者OpenAI投資了數(shù)十億美元,隨后,微軟推出了其ChatGPT版新Bing搜索引擎。谷歌很快也加入競(jìng)賽,該公司基于其大型語(yǔ)言LaMDA推出類似的對(duì)話式AI應(yīng)用程序Bard。

去年5月,Meta也曾發(fā)布了擁有1750億參數(shù)的OPT大型語(yǔ)言模型,這一模型的適用對(duì)象也是開發(fā)人員,是生成其聊天機(jī)器人BlenderBot的基礎(chǔ)模型。半年后,Meta推出名為Galactica的語(yǔ)言模型,該模型可以撰寫科學(xué)文章并解決數(shù)學(xué)問(wèn)題,但在推出三天后,這一模型就因經(jīng)常胡言亂語(yǔ)以及給出虛假信息被撤下。

國(guó)外投資機(jī)構(gòu)DA Davidson高級(jí)軟件分析師Gil Luria認(rèn)為:“Meta今天的公告似乎是測(cè)試他們生成式AI能力的一步,這樣他們就可以在未來(lái)將它們應(yīng)用到產(chǎn)品中?!?/p>

他還補(bǔ)充道:“生成式AI作為AI的一種新應(yīng)用,Meta對(duì)此經(jīng)驗(yàn)較少,但顯然對(duì)其未來(lái)的業(yè)務(wù)很重要?!?/p>

04 結(jié)語(yǔ):生成式AI競(jìng)賽不斷升溫

大型語(yǔ)言模型已經(jīng)在生成創(chuàng)意文本、解決數(shù)學(xué)問(wèn)題、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)、回答閱讀理解問(wèn)題等方面展示出了巨大的潛力,如今ChatGPT的發(fā)布使得其在消費(fèi)級(jí)應(yīng)用市場(chǎng)中爆發(fā)。

繼微軟、谷歌之后,Meta也試圖在這一領(lǐng)域展現(xiàn)自己的技術(shù)優(yōu)勢(shì)。

在科技大廠紛紛亮出生成式AI商用計(jì)劃之時(shí),Meta難得地聚焦在研究貢獻(xiàn)上,無(wú)論是用更多數(shù)據(jù)訓(xùn)練出的更少參數(shù)規(guī)模模型實(shí)現(xiàn)優(yōu)于更大參數(shù)規(guī)模模型的研究成果,還是將LLaMA模型和權(quán)重開源開放,都令人感到耳目一新。

但也由于僅限于研究用途,這可能導(dǎo)致Meta短期內(nèi)難以在生成式AI領(lǐng)域形成像OpenAI、谷歌那樣的影響力。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。