文|讀懂財經(jīng)
上周,AI行業(yè)發(fā)生了兩件大事。
1月19日,Meta首席執(zhí)行官扎克伯格宣布,Meta內(nèi)部正在訓(xùn)練下一代模型Llama 3。截至今年年底,Meta將會有近35萬塊H100搭建的基礎(chǔ)設(shè)施。1月21日,有媒體爆出消息,OpenAI CEO奧特曼正在籌集數(shù)十億美元,建立一個全球性的AI芯片工廠網(wǎng)絡(luò)。
這兩件事其實都和一個東西有關(guān)——算力。
在生成式 AI 快速爆發(fā)的時代,算力短缺是運行 AI 模型面臨的主要困難,GPT-4、Gemini、Llama 2 和其他模型嚴(yán)重依賴 H100 GPU,但H100產(chǎn)能卻嚴(yán)重受限。即使像微軟、Meta 這樣大型科技公司,也需要提前數(shù)年預(yù)定產(chǎn)能,才能獲得足夠的新型芯片,更不用說OpenAI了。
AI產(chǎn)業(yè)算力短缺的根源在于,在摩爾定律主導(dǎo)下,性能每18-24個月翻一番的芯片,難以滿足大模型參數(shù)規(guī)模的指數(shù)級增長。用OpenAI的話說,每年訓(xùn)練AI模型所需算力增長幅度高達(dá)10倍。這是瓶頸,也是機會。在新興技術(shù)的故事里,成本才是影響大模型落地。
換言之,這場以大模型為名的千億美金級豪賭實驗,最終能否將世界帶到新的摩爾時代,并不僅僅是看智能水平能提升到什么程度,更取決于模型發(fā)展會不會出現(xiàn)類似于摩爾定律的規(guī)律。
/ 01 / AI芯片,算力計算的“高地”
上周,Meta首席執(zhí)行官扎克伯格宣布,到2024年底Meta將擁有35萬塊H100,擁有近60萬個GPU等效算力。
35萬塊H100,是個什么概念呢?眾所周知,訓(xùn)練大模型往往是最花費算力的階段。OpenAI訓(xùn)練GPT-4,用了大約25000塊A100 GPU。作為A100的升級版,據(jù) Lambda 測算, H100 的訓(xùn)練吞吐量為A100的160%。也就是說,屆時Meta擁有的算力是訓(xùn)練GPT-4所用算力的20倍以上。
買這么多算力,扎克伯格自然也花了大價錢。目前,一塊英偉達(dá)H100售價為2.5萬至3萬美元,按3萬美元計算,意味著小扎的公司僅購買算力就需要支付約105億美元,更不用說電費了。
而這些算力很大部分將用于訓(xùn)練“Llama 3”大模型。扎克伯格表示,Meta將負(fù)責(zé)任地、安全地訓(xùn)練未來模型的路線圖。
在打算力主意的不止是小扎,還有OpenAI的奧特曼。同樣是上周爆出的消息,OpenAI CEO奧特曼正在籌集數(shù)十億美元,建立一個全球性的AI芯片工廠網(wǎng)絡(luò)。
目前,他正在和多家潛在的大型投資者進(jìn)行談判,包括總部設(shè)在阿布扎比的G42和軟銀集團。根據(jù)彭博社的報道,僅在OpenAI與G42的談判中,涉及金額就接近80億到100億美元。
不過與小扎準(zhǔn)備打富裕仗不同,奧特曼親自下場制造AI芯片,更多是一種無奈。據(jù)外媒報道,這一事件背后的原因很可能就是,OpenAI已經(jīng)無「芯」訓(xùn)練「GPT-5」了。
此前,奧特曼表示,OpenAI已經(jīng)嚴(yán)重受到GPU限制,不得不推遲了眾多短期計劃(微調(diào)、專用容量、32k上下文窗口、多模態(tài)),甚至還一度影響到了API的可靠性和速度。
除了自己造芯外,OpenAI也在嘗試通過其他方式來獲得更低成本的算力。去年,就有媒體爆出,OpenAI從一家名為 Rain AI 的初創(chuàng)公司提前訂購價值 5100 萬美元的“神經(jīng)形態(tài)”類腦人工智能芯片,于2024年10月開始供貨。
當(dāng)然,有自己下場造芯的可不止OpenAI一家,甚至進(jìn)度快的微軟、谷歌已經(jīng)將自研芯片用到大模型上了。
比如,Microsoft Azure Maia 是一款A(yù)I加速器芯片,可發(fā)揮類似英偉達(dá)GPU的功能,用于OpenAI模型等AI工作負(fù)載運行云端訓(xùn)練和推理。而谷歌最新的AI 芯片TPUv5e在訓(xùn)練、推理參數(shù)少于2000億的大模型時,成本也低于英偉達(dá)的A100或H100。
為什么所有大家都在絞盡腦汁搞算力,現(xiàn)在算力又發(fā)展到了什么程度呢?
/ 02 / 英偉達(dá),AI芯片的“王”
按照算力基礎(chǔ)設(shè)施構(gòu)成來看,包括 AI 芯片及服務(wù)器、交換機及光模塊、IDC 機房及上游產(chǎn)業(yè)鏈等。其中,AI芯片是其中的“大頭”,能夠占到服務(wù)器成本的55-75%。
從定義上說,能運行 AI 算法的芯片都叫 AI 芯片。按技術(shù)架構(gòu),可分為CPU、GPU、FPGA、ASIC及類腦芯片。雖然都叫AI芯片,但在擅長事情和應(yīng)用場景上有很大的差異。
就拿我們最熟悉的CPU和GPU來說,GPU更像是一大群工廠流水線上的工人,適合做大量的簡單運算,很復(fù)雜的搞不了,但是簡單的事情做得非???,比CPU要快得多。而CPU更像是技術(shù)專家,可以做復(fù)雜的運算,比如邏輯運算、響應(yīng)用戶請求、網(wǎng)絡(luò)通信等。
看上去好像CPU比GPU更牛逼,但你不妨換個角度想,即使教授再神通廣大,也不能一秒鐘內(nèi)計算出 500 次加減法,因此對簡單重復(fù)的計算來說,單單一個教授敵不過數(shù)量眾多的小學(xué)生。這就是為什么GPU被大量用戶AI大模型訓(xùn)練的原因。
在一個大模型構(gòu)建和迭代過程中,需要經(jīng)過大量的訓(xùn)練計算工作。通常來說,訓(xùn)練一次是幾乎不可能訓(xùn)練成功的,存在著大量的失敗和反復(fù),此外為保證模型迭代的更快,也需要進(jìn)行大量的并行訓(xùn)練。即便打造出第一版大模型,后續(xù)模型的持續(xù)迭代的成本無法避免。
根據(jù)此前披露的消息,GPT-4的FLOPS約為2.15e25,并利用約25000個A100 GPU進(jìn)行了90到100天的訓(xùn)練,如果OpenAI的云計算成本按每A100小時約1美元計算,那么在這樣的條件下,訓(xùn)練一次GPT-4的成本約為6300萬美元。
但就是這樣一個支撐AI發(fā)展最重要的硬件領(lǐng)域,卻被一家公司牢牢掌握著話語權(quán),那就是英偉達(dá)。
用兩組數(shù)據(jù)可以側(cè)面證明英偉達(dá)在GPU領(lǐng)域的統(tǒng)治力:根據(jù) Liftr Insights 數(shù)據(jù),2022 年數(shù)據(jù)中心 AI 加速市場中,英偉達(dá)份額達(dá) 82%。根據(jù)不久前的數(shù)據(jù),2023年人工智能研究論文中使用的英偉達(dá)芯片比所有替代芯片的總和多19倍。
毫無疑問,英偉達(dá)是去年以來AI浪潮的最大贏家。2022年10月到現(xiàn)在,英偉達(dá)的股價從110美元左右上漲到近600美元,漲了500%。FactSet數(shù)據(jù)顯示,此前20個季度,英偉達(dá)有19個季度的業(yè)績都優(yōu)于市場預(yù)期。
2022年底,英偉達(dá)發(fā)布了最新的GPU產(chǎn)品——H100。相比A100,它的效率高達(dá)3倍,但成本只有(1.5-2倍)。更重要的問題是,受限于產(chǎn)能緊張,H100仍然供不應(yīng)求。根據(jù)外媒報道,英偉達(dá)將在2024年,把H100的產(chǎn)量從去年的50萬張左右直接提高到150-200萬張。
英偉達(dá)的成功也說明了一件事情:在大模型軍備競賽里,最后挖礦的誰能贏不知道,但買鏟子的一定賺錢,且短期內(nèi)有高議價權(quán)。
/ 03 / 摩爾定律,跟不上大模型進(jìn)化速度
既然AI芯片這么重要,那為什么還會如此短缺?歸根到底,AI芯片的性能提升仍然受限于摩爾定律,遠(yuǎn)遠(yuǎn)趕不上大模型參數(shù)的規(guī)模增長。
一些重點研究實驗室報告稱,公眾對大語言模型的使用率達(dá)到了驚人高度。2021年3月,OpenAI宣布其GPT-3語言模型被“超過300個應(yīng)用程序使用,平均每天能夠生成45億個詞”,也就是說僅單個模型每分鐘就能生成310萬詞的新內(nèi)容。
在這種情況下,AI模型對算力需求的增長是驚人的。據(jù)OpenAI測算,自2012年以來,人工智能模型訓(xùn)練算力需求每3~4個月就翻一番,每年訓(xùn)練AI模型所需算力增長幅度高達(dá)10倍。
相比之下,GPU更迭效率仍然延續(xù)著摩爾定律。根據(jù)摩爾定律,芯片計算性能大約每18-24個月翻一番。從目前看,盡管H100相比A100性能有明顯提升,但并沒有像模型訓(xùn)練算力需求那樣有明顯數(shù)量級的增長。
在這種情況下,想要追求算力的增長,只能做更大規(guī)模的分布式訓(xùn)練。簡單來說,就是用更多數(shù)量的機器,來滿足訓(xùn)練所需的算力。這個方法的瓶頸在于,受網(wǎng)絡(luò)傳輸?shù)南拗啤D壳?,網(wǎng)絡(luò)傳輸最大是800G,這意味著分布式訓(xùn)練的規(guī)模也不會無限制增長。
從種種跡象來看,巨型模型時代正在接近尾聲。拋開缺少更多高質(zhì)量訓(xùn)練數(shù)據(jù)的原因,算力硬件迭代速度和日益高漲的訓(xùn)練成本也是一個重要原因。根據(jù)拾象CEO李廣密判斷,未來幾年OpenAI僅訓(xùn)練模型?少還得200-300億美元,Google200-300億美元,Anthropic100-200億美元,算下來未來幾年至少投入1000億美元純粹用到訓(xùn)練?模型。
在硬件提升有限的情況下,提高效率將成為很多大模型企業(yè)的選擇。據(jù)谷歌 PaLM 的 論文,在訓(xùn)練階段,缺乏優(yōu)化經(jīng)驗或堆疊過多芯片,效率可能低至 20%,目前谷歌與 OpenAI 都能達(dá)到 50% 左右。前述機構(gòu)推測目前推理階段的效率只有25%左右,提升空間巨大。
在很多人看來,大模型更像一場千億美金級豪賭實驗,有機會將人類帶入新的摩爾時代。在這個過程中,除了智能水平的提升,大模型訓(xùn)練、推理的成本下降會不會出現(xiàn)類似于摩爾定律的趨勢,也是一個重要的觀察維度。
從過去看,一個新技術(shù)能不能真正走向大規(guī)模落地,往往不取決于技術(shù)有多強,而是成本有多低。參考移動互聯(lián)網(wǎng)應(yīng)用大規(guī)模爆發(fā),起于從3G到4G的所帶來的流量成本大幅下降。從目前看,這樣的故事大概率也將在人工智能領(lǐng)域發(fā)生。