文|經緯創(chuàng)投
3月29日,由圖靈獎得主Yoshua Bengio、特斯拉CEO馬斯克、紐約大學名譽教授Gary Marcus、UC伯克利教授Stuart Russell等1000多人,在一封叫停GPT-4后續(xù)AI大模型的公開信上簽名。
這封公開信指出,最近人工智能陷入了一場失控的競賽,模型的創(chuàng)造者們沒有辦法理解、預測或可靠地控制自己創(chuàng)造的大模型,人類社會對其可能造成的影響也沒有做好準備。因此,公開信呼吁,所有AI實驗室應立即暫停訓練比GPT-4更強大的AI模型,為期至少6個月。
一石激起千層浪,從各個AI群里的討論來看,贊同和反對的人都為數不少。我們一直在關注大語言模型,所以對這封公開信中提到的“但是沒有人能理解、預測或可靠地控制這些大模型,甚至模型的創(chuàng)造者也不能”頗有感觸,我想這個論斷背后的核心點之一,就是人類至今沒有搞清楚大語言模型中的“涌現”(Emergent)現象到底是怎么回事?AI為什么一下子變得如此智能?
過去幾十年來,AI能夠在局部領域打敗人類,比如圍棋,但在大多數時候,AI都沒那么聰明,比如你問它“李白喜歡用什么手機?”,它要么卡殼要么給出離譜回答。這是因為讓AI掌握常識,并且能夠融會貫通地運用這些常識、形成推理能力非常難,一直以來這都是巨大的難題。
但這次以ChatGPT為代表的一眾大語言模型,突然突破了這個門檻,變得非?!奥斆鳌薄.斎槐澈蟮脑蛴泻芏?,比如自監(jiān)督學習、Fine-tuning策略等等,但有一個重要的底層變化——大語言模型的“涌現”(Emergent)現象,就是說一些業(yè)界從未想象到的能力,例如基礎的社會知識、上下文學習(ICL)、推理(CoT)等等,在訓練參數和數據量超過一定數值后,這些能力突然出現了,令AI一下子變得非常智能。
“計算機科學之父”艾倫·麥席森·圖靈早在1950年的論文Computing machinery and intelligence(計算機器與智能),就提出過一個觀點:“學習機器有一個重要的特征,即它的老師往往對機器內部運行情況一無所知?!?/p>
70多年后,這則恐怖的論斷成真了。大語言模型的設計者,比如OpenAI、DeepMind或是Meta,他們也不清楚這些新興能力是如何產生的。微軟在關于GPT-4的論文中提出了這個問題:它是如何推理、規(guī)劃和創(chuàng)造內容的?為什么GPT-4本質上只是由簡單的算法組件——梯度下降和大規(guī)模的Transformer架構,以及大量數據組合而成,但會表現出如此通用和靈活的智能?
微軟對GPT-4的這個問題,還可以延伸出很多新問題:涌現是在多大參數規(guī)模出現的?哪些調整會影響能力的涌現?會涌現出哪些方向的能力?我們能控制它嗎?……
搞清楚這些問題其實非常重要,短期的意義是,多大的模型規(guī)模是合適的?根據Chinchilla的論文,你可以對比在GPT-3的1750億參數中,可能是有不少冗余的,如果更小的模型也可以出現能力涌現,這也許能削減訓練成本。
長期的意義在于,AI目前還是在線上,但遲早會與物理世界連接,你可以想象一個基于GPT-10的ChatGPT與波士頓動力或者特斯拉的機器人結合嗎?這或許在不遠的將來就能實現。但如果涌現依然是一個黑箱,人類無法理解人工智能的進化方式或是方向,這在未來AI與物理世界連接后,恐怕會存在危險。
目前,學界與產業(yè)界有幾十篇論文在研究涌現現象,或是研究模型規(guī)模與性能之間的聯(lián)系,我們在本文中會引用一些核心觀點,在文末的注釋中會列出這些論文的簡介與鏈接,供感興趣的朋友們進一步研究。本篇文章會主要討論這些問題:
● 大語言模型令人震驚的理解和推理能力
● 當我們加大模型規(guī)模時,出現的三種神奇表現
● 兩種被證明具備“涌現”的典型能力:上下文學習(ICL)和思維鏈(CoT)
● 多大的模型規(guī)模會出現“涌現”?
大語言模型的涌現現象,在一定規(guī)模后迅速涌現出新能力;圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
01 大語言模型令人震驚的理解和推理能力
最近幾個月里,硅谷一夜之間出現了幾百家應用層的創(chuàng)業(yè)公司,但在去年11月OpenAI發(fā)布ChatGPT之前,整個市場并沒有意識到人工智能會在這個時刻,出現這樣的爆發(fā)。
并且大語言模型的迭代速度非常驚人,OpenAI在三個半月后,就即刻發(fā)布了GPT-4,升級到多模態(tài),GPT-4竟然可以從文字+圖片中,理解人類的幽默感。這些里程碑式的進化背后,核心是涌現現象的出現,只有AI涌現出了這些能力,AI產業(yè)才真正迎來了拐點。
給GPT-4提問:你能解釋一下作者想表達什么嗎?
GPT-4說:這是一個笑話,它結合了兩個不相關的東西:從太空看地球的圖片和雞塊。文字表明,下面的圖片是從太空看地球的美麗圖片。然而,該圖片實際上是雞塊的排列,只是有點像世界地圖。這個備忘錄的幽默來自文本和圖片的意外并置,文字設置了一個對地球雄偉形象的期望,但圖像實際上是一些平凡而愚蠢的東西。
上面這個例子證明了GPT-4具備多模態(tài)的理解力,可以識別并理解圖片,以及理解了文字+圖片并行的意思,并且懂得人類的幽默感。我們再舉兩個例子,來證明GPT-4具備知識沉淀與推理能力:
黃色標記突出了關鍵的成功推理步驟;圖片來源:Sparks of Articial General Intelligence:Early experiments with GPT-4,Microsoft
這是給GPT-4出的一個典型謎題:一個獵人向南走了一英里,向東走了一英里,向北走了一英里,此時恰好回到了起點。他看到了一只熊,于是開槍打了它。這只熊是什么顏色的?
我們看到ChatGPT直接放棄了回答,但GPT-4的回答是正確的,答案是白色,并且GPT-4展開推理分析:因為獵人先向南,再向東最后向北,分別走了一英里,恰好回到了原點,這種情況只可能發(fā)生在北極,而那里生活著北極熊,所以是白色的。
我們再舉一個類似的例子,但這個謎題需要不同的知識積累:我駕駛一架飛機離開我的營地,直接向東飛行24901英里,然后回到營地。當我回到營地時,看到一個老虎在我的帳篷里吃我的食物,這只老虎是什么物種?
黃色標記突出了關鍵的成功推理步驟;圖片來源:Sparks of Articial General Intelligence:Early experiments with GPT-4,Microsoft
同樣的,ChatGPT直接放棄了回答,但GPT-4給出了正確的答案:任何生活在赤道上的老虎物種,例如孟加拉虎和蘇門答臘虎。在這個謎題里,AI需要知道地球赤道長24901英里,只有在赤道上才能向東或向西行駛并返回同一點,以及哪些老虎物種生活在赤道上。
這些測試都證明了AI具備知識沉淀和推理能力,這也是AI首次真正意義上跨過常識這道門檻。擁有常識要求AI不僅能夠看懂眼前畫面里的各種東西,還得知道社會規(guī)范、物理化學地理等等知識,并且把新看到和已知的一切融會貫通,這是之前十幾年AI產業(yè)都沒有解決的問題,所以之前的AI都有點“智障”,直到GPT-4出現。
為什么AI會涌現出這些能力?目前學界還沒有答案。不過,有一些探索性的研究論文,在嘗試得出一些結論。例如Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的涌現能力)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的涌現)。
以及,到底如何評估大語言模型的能力表現?在哪些任務上會出現涌現現象?Google在2022年做了一項重要的基準測試。研究人員設計了一個大規(guī)模、非常復雜且具有多樣化的基準測試——超越模仿游戲基準(Beyond the Imitation Game Benchmark,BIG-bench),以在這個新基準之上衡量大模型的性能。
這是一項非常重要的研究,它包含了204項任務,內容多種多樣,包括語言學、數學、常識推理、生物學、物理學、社會學、編程等各個方面,并且還有一個由人類專家組成的對照組,他們也同時來做這些測試任務,以跟大模型的結果做對比。
BIG-bench對很多大模型做了測試,包括OpenAI的GPT-3、Google的BIG-G等等,模型規(guī)模參數有百萬級別的,也有千億級別的。這項任務的主要目標,不是簡單地判斷大模型與人類的區(qū)別,而是為了研究與大模型行為相關的問題。這篇論文的很多結論很有意思,其中就有對“涌現”現象的研究,我們在后文中會介紹。
還有一些對大語言模型參數規(guī)模與性能之間聯(lián)系的研究,比如DeepMind在21位作者合寫的論文《Training Compute-Optimal Large Language Models》(訓練計算利用率最優(yōu)的大語言模型)中,闡釋了盡管大型語言模型隨著規(guī)模的增長,實現了性能的大幅增強,但由于訓練它們的數據量并沒有相應成比例地增加,所以并沒有實現最高的投入產出比,很多大語言模型都存在訓練不足的問題。
這篇論文也很有意思,它的背景是DeepMind此前發(fā)布了2800億參數的Gopher,他們統(tǒng)計了Gopher高昂的訓練成本,但預測出最優(yōu)模型應該小4倍,并且在多4倍的數據量上進行訓練,才能更充分。然后Deepmind又訓練了一個更小的、700億參數的模型Chinchilla,但在更大規(guī)模的數據量上訓練,最終證實了這個想法,Chinchilla的性能不輸于Gopher。
還有OpenAI 10位作者合寫的論文《Scaling Laws for Neural Language Models》;Microsoft 14位作者合寫的GPT-4論文《Sparks of Articial General Intelligence:Early experiments with GPT-4》;Meta 11位作者合寫的論文《LLaMA:Open and Efficient Foundation Language Models》,LLaMA是一個值得關注的大模型,因為Meta一次性發(fā)布了四種尺寸:7B、13B、33B和65B,有助于研究模型規(guī)模與性能之間的聯(lián)系。
目前對于涌現,最核心的判斷來自Google+DeepMind+Stanford的論文《Emergent Abilities of Large Language Models》:小語言模型本來不具備某種能力,然后我們把模型加大,結果它就產生了某種能力,這就是涌現。
02 當我們加大模型規(guī)模時,出現的三種神奇表現
在2020年之后,人工智能領域最大的進展,其實就是模型規(guī)模的快速增長。在AI圍棋打敗人類棋手時代,Google Bert的參數規(guī)模在3億量級。但到了2020年之后,GPT-3跨越到了1750億參數規(guī)模。而Google在今年初新出的PaLM多模態(tài)模型,都在5000億以上。當然模型規(guī)模不僅僅是越大越好,還需要足夠高的訓練效率。
近年來,大語言模型在參數規(guī)模和算力上都大幅提升;圖片來源:BofA Global Research
當我們不斷加大模型規(guī)模時,大語言模型出現了三種表現:
第一種是大語言模型從海量自由文本中學習了大量知識,并且是在不斷積累的。從下圖我們可以看到,隨著有效參數規(guī)模的提升,大語言模型在處理知識密集型任務越來越厲害。
知識密集型任務遵循伸縮法則;圖片來源:Google BIG-bench:Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
如果把這些知識粗略分類的話,主要是語言類知識和世界知識兩大類。自從Google的Bert出現以來,就不斷有相關研究,并且也有了結論,各種實驗充分證明大語言模型可以學習各種層次類型的語言學知識,這也是為何使用預訓練模型后,各種語言理解類的任務,獲得了大幅提升。
另外,各種研究也證明了淺層語言知識,比如詞法、詞性、句法等知識存儲在Transformer的低層和中層,而抽象的語言知識比如語義類知識,廣泛分布在Transformer的中層和高層結構中。
世界知識指的是,一些事實型知識和常識型知識,比如“第一次世界大戰(zhàn)開始于1914年7月28日”、“拿破侖曾經是法蘭西皇帝”等等事實型知識;以及“人有兩只眼睛”、“太陽從東方升起”、“世界有五大洲”“一天有24小時”等等常識型知識,大量研究證明了大語言模型,從訓練數據中吸收了大量世界知識,而這類知識主要分布在Transformer的中層和高層,尤其聚集在中層。
一篇2021年的論文顯示,研究人員通過分層探測程序,來研究Google基于Transformer架構的Bert是如何儲存知識的,發(fā)現并不是所有知識都在最后幾層獲得,大量的事實與一些關系更多是在中間層,比如給Bert一個問題“阿拉巴馬州的首府是?”,在Transformer的架構中,可以發(fā)現正確答案“蒙哥馬利(Montgomery,上圖中標紅)”是儲存在11層和12層之間,但一些邏輯推理中所需要的詞匯,比如located(位于)、today(今天)、city(判斷任務中的capital這個詞,此時指的是城市),以及其他地名知識Gaveston(加爾維斯敦,美國得克薩斯州東南部港市)、Haifa(以色列城市海法)等等,儲存在5-11層之間。
圖片來源:BERTnesia:Investigating the capture and forgetting of knowledge in BERT
更重要的是,隨著Transformer模型層深增加,能夠學習到的知識數量逐漸以指數級增加。以色列特拉維夫大學、Allen Institute for AI、Cornell Tech的4位學者,在一篇論文中研究了Transformer到底是如何儲存這些知識?以及如何對全局信息進行集成、如何建立知識與知識之間的聯(lián)系、在使用時如何提取。
這個研究揭示了大語言模型如何預測下一個詞,比如這個任務中,需要預測Stay with you for a ?,我們知道答案是while,但大語言模型如何預測出來?首先輸入向量(這里是x5),與key相乘,上圖中“k2”是由描述一段時期(it will take a、every once in a、and for a)、并且以a為結尾的輸入觸發(fā)的,得出記憶系數(例如V1的記憶系數是0.2,V2是1.5),然后對儲存在數值中的輸出詞匯進行權重分配,因此前饋層(feed-forward layer)的輸出是其數值的加權和,而前饋層在這個過程中模擬了神經記憶。在這個例子中,AI將大部分概率放在了V2上,也就是“while”這個詞。同時,研究者發(fā)現大模型作為一個整體,每個層結合了數百個活躍的記憶,在預測的過程中創(chuàng)造了每個組成記憶的值的概率發(fā)布,而層與層之間也有著某種鏈接以便調整,最終的輸出分布是以自下而上的方式構建出來的。
圖片來源:Transformer Feed-Forward Layers Are Key-Value Memories
能證明大語言模型是有知識沉淀的,其實非常重要。OpenAI為什么能一直堅持做大語言模型?在發(fā)展的前期,GPT其實讓OpenAI非常受挫,GPT-1和GPT-2都沒能勝過Google的Bert,直到GPT-3才揚眉吐氣。
在這個有點“對抗全世界”的過程中,一顆定心丸就是“大語言模型確實在不斷積累知識”,如果沒有這些,OpenAI可能很難堅持下來。試想一下,如果你拿大量數據訓練了很久,最后卻發(fā)現沒有證據證明這個大模型學會了任何知識和推理,只是學習到了統(tǒng)計相關性,那誰還會一直有決心堅持下去呢?所以ChatGPT的成功,不單單是OpenAI獨立實現的。
目前在知識密集型任務上,隨著模型規(guī)模增長而帶來的效果提升,還沒有看到盡頭,這也意味著只要我們不斷擴大,AI處理這類任務的能力還會提升。
另外,OpenAI也在研究中得出了類似的結論。在論文Scaling Laws for Neural Language Models中,OpenAI提出了大語言模型遵循“伸縮法則”(scaling law)。如下圖所示,OpenAI通過研究證明,當我們增加參數規(guī)模、數據集規(guī)模和延長模型訓練時間,大語言建模的性能就會提高。并且,如果獨立進行,不受其他兩個因素影響時,大模型性能與每個單獨的因素都有一個冪律關系,體現為Test Loss的降低,也就是模型性能提升。
當我們獨立增加參數規(guī)模、數據集規(guī)模和延長模型訓練時間,大語言建模的性能就會提高;圖片來源:OpenAI:Scaling Laws for Neural Language Models
在上一步的基礎上,第二類就是涌現出新能力。具體體現為,在模型參數規(guī)模不夠大時,AI的能力表現非常一般,準確性幾乎是隨機的。但是當模型規(guī)模和計算力都推進到一定規(guī)模之后,AI的能力突然急劇增長。經過分析,這類能力也有一個共性,就是這類任務都是由多個步驟構成的一個復雜任務,比如語詞檢測、國際音標音譯、周期性運算、修正算術、單詞解讀等等。
多步驟推理類任務中,也具有涌現能力;圖片來源:Google BIG-bench:Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
第三種表現是有些情況下,能力效果會呈現U型曲線。這類情況出現的比較少,主要是隨著模型規(guī)模加大,剛開始的時候效果反而下降,但當規(guī)模到了一定程度之后,效果又開始上升。
圖片來源:Google:Inverse scaling can become U-shaped
如上圖中紅色線代表的PaLM模型,在兩個任務上的指標走勢,為何會出現U型曲線?Google的論文Inverse scaling can become U-shaped給出了一種解釋:這些任務,內部其實包含了兩種不同類型的子任務,一種是真正的任務,另外一種是“干擾任務”。
當模型規(guī)模小的時候,無法識別子任務是哪一種,所以模型的表現跟隨機選擇答案差不多;當模型增長到中等規(guī)模的時候,主要執(zhí)行的是干擾任務,所以對真正的任務效果有負面影響;當進一步增加模型規(guī)模,大模型開始識別出干擾任務,并忽略掉它們,執(zhí)行真正的任務,最終結果的準確率上升。
03 兩種被證明具備“涌現”的典型能力:上下文學習(ICL)和思維鏈(CoT)
目前有兩類最典型的能力,有實際證據來說明大模型具備涌現效應。
第一類就是In Context Learning(ICL,上下文學習),ICL是在2022年初正式提出來的,它也是ChatGPT熱潮的重要基石之一。
ICL的關鍵思想是不對模型參數進行調整,而是給大模型幾個示例,AI就可以從類比中學習。這也意味著,AI其實并沒有經歷一個明確的學習過程,而是通過看了一些示例,就出現了解決該領域問題的新能力。
ICL對大語言模型能否泛化非常重要。在ICL之前,很多語言模型都是兩段式框架,即預訓練+下游任務微調,但是在針對下游任務的微調過程中,需要大量的樣本參數,否則效果很差,然而標注數據的成本高昂、標注量有限,并且如果數據較少的話,容易導致過擬合,致使模型的泛化能力下降。此時ICL這種不需要fine-tune的方法既節(jié)省時間與算力資源,還提升了模型性能。
In Context Learning示例。圖片來源:華盛頓大學、Meta、Allen Institute for AI:Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
上圖給出了一個大語言模型如何使用ICL進行決策的例子。首先,ICL需要一些示例來形成一個演示上下文,這些示例通常都是用自然語言編寫的(上圖中標黃的部分)。然后ICL將查詢的問題(即你需要預測標簽的input,上圖中標綠的部分)和一個上下文演示(一些相關的例子)連接在一起,形成帶有提示的輸入,并將其輸入到語言模型中進行預測(上圖中最下方的結果)。
所以,ICL只需要一些演示「輸入-標簽」對,模型就可以預測標簽,甚至是沒見過的輸入標簽。在許多下游任務中,大型 GPT模型的性能非常好,甚至超過了一些經過監(jiān)督微調的小型模型。
不過,雖然GPT-3/4已經顯示出令人驚訝的ICL能力,但它到底是如何工作的?這些能力是如何涌現出來的?現在還沒有結論。
還有很神秘的一點是,如果說大模型只是看了一些示例,但怎么就能預測對新的例子呢?ICL與Fine-tuning表面上看,都是給大模型一些例子,然后讓它們去預測,但兩者有本質不同。Fine-tuning是拿這些例子當作訓練數據,利用反向傳播去修正大模型的參數,而這個修正的動作,體現了大模型從這些例子中有學習過程。
但在ICL中,只是拿出例子讓大模型“看了一眼”,并沒有證據表明大模型有根據例子去修正參數的動作,就直接讓大模型去預測新例子,這意味著大模型似乎并未經歷一個學習的過程,那么大模型是如何做到的?
這目前還是未解之謎。有學者試圖證明ICL沒有從例子中學習,代表論文是華盛頓大學、Meta與Allen Institute for AI的7位研究者所寫的Rethinking the Role of Demonstrations:What Makes In-Context Learning Work?。但也有學者認為大模型其實有一種隱式學習,代表論文是What learning algorithm is in-context learning? Investigations with linear models。目前這些互相矛盾的研究,暫時還誰也說服不了誰。
第二類被廣泛認為具備涌現能力的就是CoT(思維鏈,Chain of Thought),CoT是大語言模型推理能力的重要來源之一。
CoT的主體思想是:為了教會大語言模型如何做推理,我們先給出一些人工寫好的推理示例,示例里要把一步步的具體推理步驟寫清楚,而這些人工寫的詳細推理過程,就是思維鏈Prompting。
圖片來源:Google Brain Team:Chain of thought prompting elicits reasoning in large language models
最早系統(tǒng)性提出CoT做法的,是Google Brain團隊,9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統(tǒng)性闡述了CoT。人工寫的詳細推理過程,就是上圖中藍色文字部分。
CoT是要讓大語言模型明白,在推理過程中,步子不要邁得太大,否則很容易出錯,而是要把大問題拆分成一個一個小問題,逐步得出最終的正確結果。Google Brain的這篇論文發(fā)布于2022年1月,開始應用CoT后,一些改進技術很快跟上,大語言模型的推理能力得到了巨大提升,特別是像數學推理的準確率瞬間提高。
我們在上文分析過,通過海量數據訓練,大語言模型吸收了大量世界知識,并且可以對全局信息進行集成、建立知識與知識之間的聯(lián)系、在需要使用時準確提取。但我們不會因為一個人擁有很強的記憶能力,就說這個人很有智慧,而決定有沒有智慧的,是這個人能不能通過大量知識推理出準確結論。
所以CoT是ChatGPT如此驚艷的重要基礎,已經有不少研究證實,CoT也具備涌現現象。
使用CoT提示,提高了大模型處理數學問題、符號推理任務的能力,出現了能力涌現現象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。
使用CoT提示,還提高了大模型的常識推理能力,也出現了能力涌現現象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。
如今GPT-4已經在很多人類的考試中取得了高分,比如SAT、AP、GRE等等,甚至還通過了模擬律師考試,分數在應試者的前10%左右。
圖片來源:OpenAI:GPT-4 Technical Report
一些能力涌現舉例。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
不過目前大模型在復雜推理方面仍然有局限性。無論是微軟在論文Sparks of Artificial General Intelligence:Early experiments with GPT-4中,還是加州大學圣芭芭拉分校5位研究者的論文Limitations of Language Models in Arithmetic and Symbolic Induction,都提出了大語言模型在解決問題時的規(guī)劃能力偏弱。
比如對于一個簡單算術問題,7*4+8*8=?,GPT-4就給出了錯誤答案88。微軟用了100個隨機樣本測試了這個任務,得到的準確率只有58%,但這其實是一個小學生都可以解決的簡單算術問題。如果把數字變大,到99-199 之間,準確率降至零。
圖片來源:Microsoft:Sparks of Artificial General Intelligence:Early experiments with GPT-4
但如果我們提示大模型要規(guī)劃好推理步驟,比如這個更難一點的任務:116 * 114 + 178 * 157 =?,我們這次同時寫上提示推理步驟:“讓我們一步一步地考慮如何解決這個表達式,寫下所有中間步驟,然后才得出最終解決方案。”
于是準確率大幅提升,可以到90%-100%。這其實說明了,大模型自身缺乏提前規(guī)劃的能力,這種能力的缺失,會導致大模型很難去處理更加復雜的推理任務??傊?,如何加強大模型的復雜推理能力,是未來研究中非常重要的一點。
04 多大的模型規(guī)模會出現“涌現”?
我們在上文分析了大模型在哪些任務中出現了涌現現象,緊接著一個更具有短期價值的問題出現了——多大的模型規(guī)模會出現“涌現”現象?
根據Google、Stanford、DeepMind的論文Emergent Abilities of Large Language Models,我們可以得出一個經驗判斷:68B是一個基礎的參數(params)門檻(B代表單位billions,十億),最好要超過100B。當然這與具體的任務和模型本身都有關聯(lián)。
在ICL(上下文學習)的情形下,需要最少參數就能出現涌現的任務是Addition/ subtraction(3 digit),也就是三位數的加/減法,只需要130億參數;而像在Word in Context(WiC)benchmark(多義詞判斷,該任務是指給定兩個文本片段和一個有多重含義的多義詞,要求模型判定這個單詞是否在兩個句子中有相同的含義)這樣的稍復雜任務中,則需要5400億參數才能出現涌現。
ICL情形下,出現能力涌現所對應的模型規(guī)模。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
而在CoT(思維鏈)的情形下,需要最小參數的任務是using open-book knowledge for fact checking(事實核查),只需要71億;而leveraging explanations in prompting(在提示中利用解釋詞)則需要2800億參數才能涌現這個能力。
CoT情形下,出現能力涌現所對應的模型規(guī)模。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
所以綜合來看,68B是一個最基礎的門檻。而目前效果最好的大語言模型,其參數規(guī)?;径汲^了100B。例如OpenAI的GPT-3為175B,GPT-4的參數規(guī)模未公布;Google的LaMDA規(guī)模為137B,PaLM的規(guī)模為540B,DeepMind的Gogher規(guī)模最大,達到280B。當然,參數規(guī)模不是盲目地越大越好,而是要充分訓練。
那么能不能把模型做小?我們知道,現在大模型的訓練成本非常高昂,無論是算力還是高質量的數據集本身都是稀缺資源,動輒百萬美元的單次訓練成本對大多數公司來說都太貴了。但是如果模型太小,很多能力涌現不出來,又會變成“智障”,所有訓練成本都白費。
目前小模型的代表之一是DeepMind的Chinchilla,它的參數規(guī)模在70B,但在各項性能上,與280B的大模型Gopher相差不算太大。當然這里的“小”模型,只是相對于更大參數規(guī)模的模型而言,Chinchilla本身也還是屬于大語言模型。
Gopher也是DeepMind發(fā)布的大模型,由于模型規(guī)模太大,所以訓練成本非常高昂。不過Google通過一項研究,預測出了最優(yōu)模型其實應該小4倍,并且在多4倍的數據量上進行訓練,才能更充分。
于是DeepMind又訓練了一個更小的、70B參數的模型Chinchilla,但在更大規(guī)模的數據量上訓練,最終證實了這個想法。不過在訓練成本方面,Chinchilla雖然減少了參數規(guī)模,但增加了數據量,所以訓練成本并沒有降低,而是降低了推理成本,并且能夠在更小硬件上實現應用。
各個主流大模型的參數規(guī)模與訓練數據量對比,Chinchilla參數規(guī)模最小,但訓練數據量最大。圖片來源:DeepMind:Training Compute-Optimal Language Models
Chinchilla也具備涌現能力。圖片來源:Google、Stanford University、DeepMind:Emergent Abilities of Large Language Models。
如上圖所示,可見Chinchilla在各種MMLU任務(是一種自然語言處理的綜合任務,其中有很多子任務)中,具備涌現能力。
圖片來源:DeepMind:Training Compute-Optimal Language Models
在Google BIG-bench基準測試中,如上圖所示(上圖是用Chinchilla的測試得分除以Gopher,以體現Chinchilla比Gopher提升了多少),70B參數規(guī)模的Chinchilla,比起280B參數規(guī)模的Gopher,只有四項任務表現更差,其他在性能上都更優(yōu)。
這里就涉及到了一個核心問題——算力如何分配?我們在上文介紹“伸縮法則”時,提到過OpenAI在論文Scaling Laws for Neural Language Models中得出結論,當我們獨立增加參數規(guī)模、數據集規(guī)模和延長模型訓練時間,大語言建模的性能就會提高。那么假設總算力是一定的,到底是應該多增加數據量、減少模型參數呢?還是兩者同時增加,但減少訓練時間呢?
最終OpenAI選擇了同時增加訓練數據量和模型參數,但是采用早停策略(early stopping),來減少訓練時長。
OpenAI證明了,如果只單獨增加訓練數據量和模型參數其中某一個,不是最好的選擇,而是要按照一定比例同時增加兩者。OpenAI的結論是優(yōu)先增加模型參數,然后才是訓練數據量。假設用于訓練大語言模型的算力總預算增加了10倍,那么應該增加5.5倍的模型參數量,1.8倍的訓練數據量,此時模型效果最佳。
DeepMind在論文Training Compute-Optimal Large Language Models中,也得出了類似的結論,但與OpenAI不同的是,DeepMind認為訓練數據量也很重要,不亞于模型參數。
基于這個認知,DeepMind在設計Chinchilla模型時,在算力分配上選擇了新配置:對標數據量300B、模型參數量280B的Gopher模型,Chinchilla選擇增加4倍的訓練數據量,但是將模型參數降低為Gopher的四分之一(70B)。從結果來看,無論是預訓練指標,還是很多下游任務指標,Chinchilla效果都要優(yōu)于規(guī)模更大的Gopher。
另一個“小”模型的例子是Meta推出的LLaMA。LLaMA一推出,就引起了轟動,因為LLaMA可以在配備M1芯片的蘋果電腦,或者單個英偉達消費級GPU上運行,而像GPT這些大模型都需要多個數據中心級英偉達A100 GPU支持,并且LLaMA是開源的。如果LLaMA確實好用,那就意味著普通人也可以在自己的消費級硬件上運行這些工具了,這將對社會產生巨大影響。
從Meta的論文LLaMA:Open and Efficient Foundation Language Models中,Meta也提出了這樣一個觀點:在給定的算力預算下,最好的性能不是由最大的模型實現的,而是由在更多數據上訓練的“小”模型實現的。
Meta更進一步的是,把推理成本也納入進來。Meta認為很多研究都忽略了推理所需的算力成本,而這一點在大語言模型最終應用時非常重要。所以盡管Hoffmann等人建議在200B tokens的數據量上訓練10B參數規(guī)模的模型,但Meta發(fā)現7B參數模型的性能,在1T tokens數據量以上還能繼續(xù)提升。
所以Meta的目標是用盡量小的參數規(guī)模,拿更大的數據量來訓練,以追求更低的推理成本。所以LLaMA最小的參數只有7B,最大的也只有65B,相比于GPT-3 175B確實是“小”模型。
那么LLaMA雖然有更小的參數規(guī)模,但效果如何?也具備涌現能力嗎?
圖片來源:Meta:LLaMA: Open and Efficient Foundation Language Models
圖片來源:Meta:LLaMA: Open and Efficient Foundation Language Models
上圖是Meta在論文中,主要列出的針對MMLU(大規(guī)模多任務語言理解)任務成績,可見LLaMA的性能還是很不錯的,在不少基準測試中優(yōu)于GPT-3,這證明了更小的參數規(guī)模,也能產生涌現能力。
以上這些研究都很有意義,我們可以猜想,GPT-3的175B參數,其實并沒有得到充分訓練,因為以GPT的訓練數據量來說,其實不需要這么大的參數量。
那從另一個角度,在不降低模型效果的前提下,其實可以把模型做小,先增加訓練數據量、降低模型參數量,把這個量級的參數充分訓練,然后再繼續(xù)往更大的規(guī)模推。
一個太大的模型規(guī)模,會在應用的時候,導致推理速度變慢、推理成本急劇上升,一個更精煉的“小”模型,在應用端更有前途,例如Meta的LLaMA。
涌現與參數規(guī)模、訓練數據量可能有一個不同的映射關系,但具體是什么,現在仍然未知。這一點還有待學界研究。
ChatGPT的出現,代表著人工智能突破了掌握并運用常識的能力,涌現現象的出現,使得大語言模型正在往“真正的人工智能”方向大踏步迭代。
微軟在GPT-4論文中寫道:
我們對GPT-4的研究完全是基于現象學的,我們關注的是GPT-4能夠做到這些令人驚訝的事情,但我們并不知道它是如何變得如此智能的。它是如何推理、規(guī)劃和創(chuàng)造內容的?為什么當它本質上只是由簡單的算法組件——梯度下降和Transformer,以及龐大的數據組合而成時,會表現出如此通用和靈活的智能?
這些問題是大語言模型充滿神秘和吸引力的部分,挑戰(zhàn)了我們對學習和認知的理解,關鍵方向就是對大語言模型涌現現象的持續(xù)研究。
闡明GPT-4等AI系統(tǒng)的本質和機制,是一個巨大的挑戰(zhàn),這個挑戰(zhàn)在今天已經突然變得重要和緊迫。
1942年,科幻小說作家阿西莫夫(Isaac Asimov)提出了機器人三定律:
機器人不得傷害人類,或者目睹人類遭受危險而袖手旁觀;
在不違反第一定律的前提下,機器人必須服從人給予它的命令;
機器人在不違反第一、第二定律的情況下要盡力保護自己。
當下,我們雖然還處于通用人工智能的早期階段,但ChatGPT的迭代速度非常驚人,有傳聞說GPT-5的部分代碼,已經是由GPT-4來自動生成的了。我們是否需要在未來的某個時刻停下來,先思考一下如何制定針對通用人工智能的定律?并確保這些定律能夠被100%執(zhí)行,因為涌現仍然是黑箱,我們對能力涌現的機制與方向還所知甚少。
目前有少量研究探尋了涌現現象出現的可能原因,但只是一些初步探索,限于本文篇幅,我們會在下一篇文章中介紹這些研究。一些猜想包括:涌現可能只是一種外在表現,因為我們對任務的評價指標不夠平滑;很多任務是由多步驟構成,隨著模型規(guī)模變大,如果每個步驟都更準確了一點點,最終的整體正確率會大幅提升,就會體現成“涌現”現象。
在本文最后的最后,我想說一個題外話。我最初看到論文Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models的時候,被它的首頁嚇到了,然后是一種感動油然而生:在作者署名那里,密密麻麻的列舉了來自132個機構的442位作者,他們在2022年密切合作,在人類未曾涉足的前沿領域探索。
縱觀最近1-2年人工智能領域的論文,幾乎沒有僅僅2-3位作者署名的,都是5-6位或者10多位作者的聯(lián)合署名,比如微軟關于GPT-4的論文就有14位作者署名、Google關于超大模型PaLM的論文有67位作者。如今在諸多前沿領域,比如量子計算、人工智能、航天科學、核聚變等等,都需要非常復雜的多學科交匯,人類的進步不僅僅依靠一兩個天才,越來越是密切的組織與合作的結果。
Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models論文首頁,密密麻麻地列舉了132個機構的442位作者,感謝這些在人類前沿領域不斷探索的人們。
附錄:本文的論文注釋與引用
1、 針對涌現,最核心的論文是以下兩篇,可供進一步詳細閱讀:Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的涌現能力)(https://openreview.net/pdf?id=yzkSU5zdwD)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的涌現)(https://arxiv.org/pdf/2212.09196.pdf)。
2、 Google聯(lián)合132個機構的442位作者設計的基準測試——超越模仿游戲基準(Beyond the Imitation Game Benchmark,BIG-bench),論文鏈接如下:https://arxiv.org/pdf/2206.04615.pdf,測試了很多大模型的性能,都是在這個新基準之上做的。它包含了204項任務,內容多種多樣,包括語言學、數學、常識推理、生物學、物理學、社會學、編程等各個方面,并且還有一個由人類專家組成的對照組,他們也同時來做這些測試任務,以跟大模型的結果做對比。
3、 研究如何分配總算力,如何在參數規(guī)模、訓練數據量之間權衡取舍?Chinchilla模型的效果如何?詳細可見DeepMind 21位作者發(fā)布的Training Compute-Optimal Language Models(https://arxiv.org/pdf/2203.15556.pdf)。DeepMind發(fā)現當前的大型語言模型存在明顯訓練不充分的問題,這是因為大家過于關注擴展大語言模型的參數,但沒有同步增加訓練數據量所導致的,所以DeepMind訓練了一個參數規(guī)模更小、但訓練數據量更大的優(yōu)化模型 Chinchilla 來檢驗這一假設。
4、 類似DeepMind的Chinchilla,另一個“小”模型的例子,Meta推出的LLaMA,可在配備M1芯片的蘋果電腦,或者單個英偉達消費級GPU上運行,并且LLaMA是開源的,詳細可見這篇論文LLaMA:Open and Efficient Foundation Language Models(https://arxiv.org/pdf/2302.13971.pdf),也討論了給定總算力預算下,該如何分配參數規(guī)模、訓練數據量與訓練步數/時長。
5、 以上是兩個“小”模型的例子,而對于超大模型,Google在今年3月發(fā)布了史上最大的“通才”多模態(tài)模型PaLM,它有540B參數,PaLM-E更是有562B參數。關于這個超大模型,可見Google Research 67位作者聯(lián)合署名的這篇論文:PaLM:Scaling Language Modeling with Pathways(https://arxiv.org/pdf/2204.02311.pdf)。
6、 微軟針對GPT-4的論文,詳細分析了GPT-4的各種表現,并且提出了對能力涌現的疑問,詳細可見:https://arxiv.org/pdf/2303.12712.pdf。
7、 基于人類反饋的fine-tuning策略,OpenAI訓練了InstructGPT,盡管參數規(guī)模小很多(只有1.3B),但InstructGPT比175B參數規(guī)模的GPT-3,在真實性和減少有毒輸出方面表現更好,這種方法被證明是保持大語言模型與人類意圖一致的潛在方法。詳細可見OpenAI的論文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)。
8、 另一個通過人類反饋的強化學習(RLHF),來微調語言模型的例子是Anthropic做的,這家新公司創(chuàng)立于2021年,由OpenAI的早期核心員工離職創(chuàng)立,他們致力于解決AI“黑盒子”的問題,希望能夠解釋AI真正的工作原理,提升安全性。這篇論文由31位Anthropic的作者聯(lián)合署名,詳細可見:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback(https://arxiv.org/pdf/2204.05862.pdf)。
9、 如果你想進一步研究ICL(in-context learning,上下文學習),ICL的表現大幅超越零監(jiān)督學習,并給大模型高效運用提供了新的思路,但其工作機制仍有待研究??梢钥催@2篇:OpenAI寫的:《Language Models are Few-Shot Learners》(https://arxiv.org/pdf/2005.14165.pdf);以及華盛頓大學、Meta、Allen Institute for AI合著的論文:《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》(https://arxiv.org/pdf/2202.12837.pdf)。
10、 關于CoT,CoT(思維鏈,Chain of Thought)是大語言模型推理能力的重要來源之一,最早系統(tǒng)性提出CoT做法的,是Google Brain團隊,9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統(tǒng)性闡述了CoT,詳細可見:https://arxiv.org/pdf/2201.11903.pdf。
11、 為何會出現U型曲線?Google在論文Inverse scaling can become U-shaped中給出了包含了不同類型的子任務,一種是真正的任務,另外一種是“干擾任務”,詳細可見:https://arxiv.org/pdf/2211.02011.pdf。
12、 對于論證淺層語言知識,比如詞法、詞性、句法等知識,存儲在Transformer的低層和中層;而抽象的語言知識比如語義類知識,廣泛分布在Transformer的中層和高層,以下兩篇論文做了深度的研究工作,這些論證研究工作對大語言模型的發(fā)展至關重要。詳細可見:BERTnesia:Investigating the capture and forgetting of knowledge in BERT(https://arxiv.org/pdf/2106.02902.pdf)和Transformer Feed-Forward Layers Are Key-Value Memories(https://arxiv.org/pdf/2012.14913.pdf)。
13、 目前大語言模型在復雜推理方面仍然有局限性,加州大學圣芭芭拉分校5位研究者在論文Limitations of Language Models in Arithmetic and Symbolic Induction,研究了這個問題,詳細可見:https://arxiv.org/pdf/2208.05051.pdf。
14、 新浪微博AI Lab負責人張俊林對大語言模型技術及涌現現象有過詳細的綜述,本文部分內容援引自他的綜述,可見《由ChatGPT反思大語言模型(LLM)的技術精要》,感謝他對此做了體系化的綜述。