无码毛片高潮一级一级喷水,中文字幕在线岳

編譯|智東西程茜

編輯|心緣

智東西2月25日報(bào)道，圍繞生成式AI的前沿技術(shù)競爭愈發(fā)膠著。就在昨晚，Meta突然公布了一款全新的AI大型語言模型LLaMA，宣稱可幫助研究人員降低生成式AI工具可能帶來的“偏見、有毒評論、產(chǎn)生錯(cuò)誤信息的可能性”等問題。

此前在最新季度財(cái)報(bào)電話會議中，Meta CEO扎克伯格提到“生成式AI”的次數(shù)比“元宇宙”還要多。如今，Meta帶來了一個(gè)利好研究學(xué)者的AI重磅成果——僅用約1/10的參數(shù)規(guī)模，實(shí)現(xiàn)了匹敵OpenAI GPT-3、DeepMind Chinchilla、谷歌PaLM等主流大模型的性能表現(xiàn)。

Meta介紹LLaMA論文

Meta目前提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型。

根據(jù)論文，在一些基準(zhǔn)測試中，僅有130億參數(shù)的LLaMA模型，性能表現(xiàn)超過了擁有1750億參數(shù)的GPT-3，而且能跑在單個(gè)GPU上；擁有650億參數(shù)的LLaMA模型，能夠跟擁有700億參數(shù)的Chinchilla、擁有5400億參數(shù)的PaLM“競爭”。

要知道，GPT-3是AI聊天機(jī)器人ChatGPT背后大模型GPT-3.5的前代，GPT-3.5的參數(shù)量也高達(dá)1750億；而谷歌驅(qū)動對話式AI應(yīng)用Bard進(jìn)行搜索查詢的模型，參數(shù)量比5400億還要多。

這是大模型研究邁出的重要一步！隨著技術(shù)持續(xù)優(yōu)化，未來有朝一日，你也許能在自己的筆記本電腦乃至手機(jī)上跑類ChatGPT功能的語言模型。

扎克伯格說，LLaMA“在生成文本、進(jìn)行對話、總結(jié)書面材料以及解決數(shù)學(xué)定理或預(yù)測蛋白質(zhì)結(jié)構(gòu)等更復(fù)雜的任務(wù)方面表現(xiàn)出了很大的潛力”。

扎克伯格Facebook貼文

值得一提的是，Meta宣布LLaMA基礎(chǔ)大型語言模型“開源”，不作商用目的，免費(fèi)供給研究人員。目前Meta在GitHub上提供了精簡版LLaMA。

01 擁有70-650億參數(shù)，20種語言訓(xùn)練

LLaMA作為一種基礎(chǔ)大型語言模型，相比于GPT-3等模型，其可以讓開發(fā)人員使用更少的計(jì)算能力和資源來進(jìn)行測試。

目前，科技巨頭玩家在大型語言模型領(lǐng)域開展軍備競賽，并且有多個(gè)成果面世。但研發(fā)人員在運(yùn)行此類大模型時(shí)往往需要大量的資源投入，導(dǎo)致部分開發(fā)人員并不能全面研究訪問這些模型。

而這種限制就會阻礙人員去理解這些模型的工作模式和功能，并且使得他們在調(diào)整模型的偏見、發(fā)生錯(cuò)誤的可能性上會較為困難。

作為一個(gè)基礎(chǔ)模型，LLaMA不是為特定任務(wù)而設(shè)計(jì)，Meta研究人員通過標(biāo)記一些Tokens等來訓(xùn)練基礎(chǔ)模型，其優(yōu)勢在于更容易針對特定潛在產(chǎn)品應(yīng)用進(jìn)行再訓(xùn)練和微調(diào)。

不同于Chinchilla、PaLM、GPT-3等大模型，LLaMA只使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練，其中包括開放數(shù)據(jù)平臺Common Crawl、英文文檔數(shù)據(jù)集C4、代碼平臺GitHub、維基百科、論文預(yù)印本平臺ArXiv等。項(xiàng)目成員稱，這是為了使其工作與開源兼容和可復(fù)現(xiàn)。

總體來看，整個(gè)訓(xùn)練數(shù)據(jù)集在標(biāo)記化后大約包含1.4萬億個(gè)Tokens。

其中，擁有650億參數(shù)的LLaMA和擁有330億參數(shù)的LLaMA使用1.4萬億Tokens進(jìn)行訓(xùn)練，最小的擁有70億參數(shù)的LLaMA在1萬億Tokens上進(jìn)行了訓(xùn)練。

擁有不同參數(shù)的模型與訓(xùn)練損失的關(guān)系圖

與其他大型語言模型一樣，LLaMA的工作原理是將一系列Tokens作為輸入，并預(yù)測下一個(gè)單詞以遞歸生成文本，Meta使用了20種語言對其進(jìn)行訓(xùn)練。

此外，大型語言模型中還可能會遇到生成偏見、不良信息、不實(shí)信息的風(fēng)險(xiǎn)，基于共享LLaMA的代碼，其他開發(fā)人員可以測試限制或消除大型語言模型中這些問題的方法。

02 7項(xiàng)AI能力，不輸業(yè)界主流大模型

在測試過程中，研究人員采用0-shot和1-shot、5-shot、64-shot幾種方式，將LLaMA與GPT-3、Gopher、Chinchilla等模型進(jìn)行了比較。

尤其值得一提的是，130億參數(shù)LLaMA模型在單個(gè)GPU上運(yùn)行時(shí)，性能表現(xiàn)可能超過1750億參數(shù)GPT-3。這也許會給類ChatGPT產(chǎn)品跑在消費(fèi)級硬件上打開新的大門。

1、常識推理（Common Sense Reasoning）

LLaMA涵蓋了八個(gè)標(biāo)準(zhǔn)常識性數(shù)據(jù)基準(zhǔn)，包括BoolQ、PIQA等。這些數(shù)據(jù)集包括完形填空、多項(xiàng)選擇題和問答等。

結(jié)果顯示，擁有650億參數(shù)的LLaMA在BoolQ以外的所有報(bào)告基準(zhǔn)上均超過擁有700億參數(shù)的Chinchilla。同時(shí)，除BoolQ和WinoGrande外，該模型測試中均超過擁有5400億參數(shù)的PaLM。

擁有130億參數(shù)的LLaMA模型在大多數(shù)基準(zhǔn)測試上也優(yōu)于擁有1750億參數(shù)的GPT-3。

2、閉卷問答（Closed-book Question Answering）

研究人員就閉卷答疑對LLaMA進(jìn)行了測試，該基準(zhǔn)測試的數(shù)據(jù)集包含閱讀理解與問答的大規(guī)模語料集TriviaQA以及自然問題。

擁有650億參數(shù)的LLaMA在0-shot和1-shot條件下，實(shí)現(xiàn)了較好的性能。

在推理過程中，擁有130億參數(shù)的LLaMA在一個(gè)V100 GPU上運(yùn)行，其基準(zhǔn)測試結(jié)果顯示，與GPT-3和Chinchilla不相上下。

3、閱讀理解（Reading Comprehension）

在閱讀理解能力方面，LLaMA通過大型深層閱讀理解任務(wù)數(shù)據(jù)集RACE評估，擁有650億參數(shù)的LLaMA與擁有5400億參數(shù)的PaLM相差并不大。

4、數(shù)學(xué)推理（Mathematical reasoning）

研究人員根據(jù)兩個(gè)數(shù)學(xué)基準(zhǔn)評估LLaMA模型，分別是包含中學(xué)和高中數(shù)學(xué)問題的數(shù)據(jù)集MATH、OpenAI發(fā)布的小學(xué)數(shù)學(xué)題數(shù)據(jù)集GSM8k。

其比較模型對象是，從ArXiv和Math Web Pages提取的擁有385億數(shù)據(jù)進(jìn)行微調(diào)的PaLM模型Minerva。

結(jié)果顯示，在GSM8k上，擁有650億參數(shù)的LLaMA優(yōu)于擁有620億參數(shù)的Minerva。

5、代碼生成（Code generation）

基于編程代碼開源數(shù)據(jù)集HumanEval和小型數(shù)據(jù)集MBPP，被評估的模型將會收到幾個(gè)句子中的程序描述以及輸入輸出實(shí)例，然后生成一個(gè)符合描述并能夠完成測試的Python程序。

對于擁有相似參數(shù)的模型，LLaMA優(yōu)于其他通用模型。

6、大規(guī)模多任務(wù)語言理解（Massive Multitask LanguageUnderstanding）

這一數(shù)據(jù)集基準(zhǔn)涵蓋人文科學(xué)、STEM、社會科學(xué)等各種知識領(lǐng)域的多項(xiàng)選擇題。

經(jīng)比較，研究人員發(fā)現(xiàn)，擁有650億參數(shù)的LLaMA在大多數(shù)領(lǐng)域平均落后于擁有700億參數(shù)的Chinchilla和擁有5400億參數(shù)的PaLM幾個(gè)百分點(diǎn)。

研究人員猜測，其中一個(gè)可能的原因是，他們在訓(xùn)練前使用的數(shù)據(jù)集較為有限，包括177GB大小的ArXiv、Gutenberg和Books3，而其余模型的訓(xùn)練數(shù)據(jù)足有2TB大小。

7、訓(xùn)練期間的能力進(jìn)化（Evolution of performance during training）

在訓(xùn)練過程中，研發(fā)人員跟蹤了LLaMA在一些問題回答和常識性基準(zhǔn)上的表現(xiàn)，其都保持穩(wěn)步提高。

不過針對于相關(guān)數(shù)據(jù)集的評估，研究人員認(rèn)為其存在許多性能差異，該基準(zhǔn)的結(jié)果并不可靠。

03 去年曾發(fā)布Galactica大模型但因偏見和造假火速下架

關(guān)于大模型的研究如今在AI領(lǐng)域十分火熱。其基本原理就是通過獲取新聞、社交媒體或其他互聯(lián)網(wǎng)資源上的文本，來訓(xùn)練軟件，使得基于大模型生成的產(chǎn)品可以在用戶給出提示或查詢搜索時(shí)自行預(yù)測和生成內(nèi)容，其目前最直觀的例子就是最近爆火的聊天機(jī)器人ChatGPT。

也正由于這一現(xiàn)象級消費(fèi)級應(yīng)用的推動，使得科技巨頭開始構(gòu)建基于大模型的產(chǎn)品測試，并將生成式AI視作新競爭領(lǐng)域。

年初，微軟向聊天機(jī)器人ChatGPT的創(chuàng)造者OpenAI投資了數(shù)十億美元，隨后，微軟推出了其ChatGPT版新Bing搜索引擎。谷歌很快也加入競賽，該公司基于其大型語言LaMDA推出類似的對話式AI應(yīng)用程序Bard。

去年5月，Meta也曾發(fā)布了擁有1750億參數(shù)的OPT大型語言模型，這一模型的適用對象也是開發(fā)人員，是生成其聊天機(jī)器人BlenderBot的基礎(chǔ)模型。半年后，Meta推出名為Galactica的語言模型，該模型可以撰寫科學(xué)文章并解決數(shù)學(xué)問題，但在推出三天后，這一模型就因經(jīng)常胡言亂語以及給出虛假信息被撤下。

國外投資機(jī)構(gòu)DA Davidson高級軟件分析師Gil Luria認(rèn)為：“Meta今天的公告似乎是測試他們生成式AI能力的一步，這樣他們就可以在未來將它們應(yīng)用到產(chǎn)品中。”

他還補(bǔ)充道：“生成式AI作為AI的一種新應(yīng)用，Meta對此經(jīng)驗(yàn)較少，但顯然對其未來的業(yè)務(wù)很重要。”

04 結(jié)語：生成式AI競賽不斷升溫

大型語言模型已經(jīng)在生成創(chuàng)意文本、解決數(shù)學(xué)問題、預(yù)測蛋白質(zhì)結(jié)構(gòu)、回答閱讀理解問題等方面展示出了巨大的潛力，如今ChatGPT的發(fā)布使得其在消費(fèi)級應(yīng)用市場中爆發(fā)。

繼微軟、谷歌之后，Meta也試圖在這一領(lǐng)域展現(xiàn)自己的技術(shù)優(yōu)勢。

在科技大廠紛紛亮出生成式AI商用計(jì)劃之時(shí)，Meta難得地聚焦在研究貢獻(xiàn)上，無論是用更多數(shù)據(jù)訓(xùn)練出的更少參數(shù)規(guī)模模型實(shí)現(xiàn)優(yōu)于更大參數(shù)規(guī)模模型的研究成果，還是將LLaMA模型和權(quán)重開源開放，都令人感到耳目一新。

但也由于僅限于研究用途，這可能導(dǎo)致Meta短期內(nèi)難以在生成式AI領(lǐng)域形成像OpenAI、谷歌那樣的影響力。

編譯|智東西程茜

編輯|心緣

Meta介紹LLaMA論文

Meta目前提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型。

扎克伯格Facebook貼文

值得一提的是，Meta宣布LLaMA基礎(chǔ)大型語言模型“開源”，不作商用目的，免費(fèi)供給研究人員。目前Meta在GitHub上提供了精簡版LLaMA。