文 | 硅基研究室 kiki 謝浩
大模型競逐邁入第三年,來自中國杭州的一家本地初創(chuàng)企業(yè)DeepSeek如同一條鯰魚,徹底攪活了全球大模型的生態(tài)圈。
從蛇年春節(jié)開始,一場圍繞“接入DeepSeek”的競賽就席卷中國AI行業(yè)。短短一個多月內(nèi),從芯片廠商、云廠商、算力服務(wù)商、軟件廠商再到面向終端用戶的各類硬件廠商,超百家中國公司已宣布加入DeepSeek朋友圈,借其開源模型能力,提升自身的業(yè)務(wù)想象力。
毫無疑問,DeepSeek讓大模型更普及了,但與洶涌流量并行而來的還有一個更關(guān)鍵的問題——算力。
圍繞著這個關(guān)鍵問題,市場的態(tài)度經(jīng)歷了“反復(fù)橫跳”:初期階段,DeepSeek低算力成本的特性,曾經(jīng)一度重創(chuàng)英偉達等算力廠商的股價;在這之后,隨著訪問用戶的激增和私有化部署的需求,算力概念股又強勢翻紅,供不應(yīng)求。近期,DeepSeek還對外公布了其理論成本和利潤率,再度引發(fā)AI圈討論。
隨著DeepSeek朋友圈的不斷擴大,芯片硬件側(cè)由OpenAI所掀起的軍備競賽,究竟能否延續(xù)?這場算力游戲,又會帶來哪些新的規(guī)則?
01 DeepSeek“朋友圈”各懷心思
DeepSeek以低成本、高性能著稱,按照官方提供的數(shù)據(jù),每個H800節(jié)點上每秒有73.7k/14.8k個輸入/輸出tokens,理論單日總收入562027美元,成本利潤率545%,其「中國式創(chuàng)新」激活了國產(chǎn)算力生態(tài)。
而從DeepSeek的「朋友圈」中來看,表現(xiàn)最為積極、速度最快的可以分為四類玩家:基礎(chǔ)層(包括國產(chǎn)芯片廠商、云廠商)、中間層(AI Infra廠商)以及在B、C兩端的軟、硬件廠商。
據(jù)「硅基研究室」不完全統(tǒng)計,第一批接入DeepSeek的企業(yè)就接近百余家。
“一天有十幾個咨詢,從春節(jié)復(fù)工后就沒有休息”。一位AI Infra廠商商務(wù)BD告訴「硅基研究室」。
作為連接大模型底層算力和下游應(yīng)用的中間層,AI Infra廠商既是第一批接住DeepSeek“流量”的玩家,也是第一批吃到流量外溢的受益者。
AI Infra廠商硅基流動創(chuàng)始人袁進輝曾在朋友圈復(fù)盤,DeepSeek出圈后,他們在2月1日就迅速找到華為,完成DeepSeek-R1和V3在昇騰生態(tài)的適配工作。
與AI Infra廠商有著相似敏銳度的,還有國產(chǎn)芯片廠商,某智算中心服務(wù)商李楊(化名)的直接體感是,此輪DeepSeek熱潮中“國產(chǎn)AI芯片廠商這輪反應(yīng)速度很快,幾乎和英偉達這些國際玩家同步接入?!?/p>
緊隨其后的就是云廠商和面向終端的軟硬件廠商。
云廠商方面,“互聯(lián)網(wǎng)云”幾乎都趕在春節(jié)期間上線了基于DeepSeek模型的API服務(wù),打起了新一輪的「低API價格+開源模型戰(zhàn)」,云端算力推動DeepSeek加速滲透不同行業(yè)。
硬件方面,端側(cè)手機廠商也是最先擁抱DeepSeek的首批玩家,而在用戶最有直觀感受的軟件應(yīng)用側(cè),包括騰訊在內(nèi)的大廠攜「超級應(yīng)用+DeepSeek」卷入競爭,給大模型競逐再添一把火。
分食DeepSeek流量背后,不同玩家其實「各懷心思」。從算力層來看,有著相對充足算力儲備的云廠商顯然動力更強。云廠商是中國算力市場的投資主力,向外它們既會大規(guī)模投資固定資產(chǎn),包括采購芯片、服務(wù)器、租賃土地建數(shù)據(jù)中心等,對內(nèi)也會自研芯片。
以阿里和百度為例,2024年全年,阿里資本支出總計超724億元,百度超82億元,據(jù)《財經(jīng)》此前報道,阿里、字節(jié)跳動也早已完成10萬卡級別的算力儲備。
除此以外,DeepSeek通過模型壓縮、稀疏計算、混合精度訓(xùn)練等多種技術(shù)手段驗證了低算力成本復(fù)現(xiàn)高性能模型的可行性,也給自研芯片的大廠帶來了“自供血”機會。
“自供血、對外租賃,云廠商有自己的業(yè)務(wù)閉環(huán)”。聯(lián)想控股副總裁于浩告訴「硅基研究室」。
其次,在戰(zhàn)略層,借自有云業(yè)務(wù),BAT和字節(jié)跳動借DeepSeek可以達成兩大意圖:一是通過DeepSeek這一超級流量入口,與自身產(chǎn)品協(xié)同,短期承接DeepSeek的流量。二是有助于鞭策內(nèi)部團隊,在對比中提升自身模型能力。
前者更像是移動互聯(lián)網(wǎng)時代大廠們擅長的打法,資深芯片專家、中存算董事長陳巍認為DeepSeek出現(xiàn)之后改變了大眾對大模型商業(yè)本質(zhì)的思考:“原先公眾認為大模型它可能是一個在日常對話、應(yīng)用辦公的工具,但事實上,DeepSeek出現(xiàn)之后,大模型也可以成為一個超越互聯(lián)網(wǎng)、甚至超越原先這些操作系統(tǒng)的超級流量入口。”
近30天DeepSeek移動端日活數(shù)據(jù)走勢來源:Sensor Tower
Sensor Tower的數(shù)據(jù)顯示,截至2月24日,DeepSeek移動端的日活數(shù)據(jù),已由超過1500萬的峰值,下滑至700萬左右。與之對應(yīng)的是,元寶、豆包、通義等均實現(xiàn)了訪問量和日活的大幅增長。
于浩提到,DeepSeek的模型能力有目共睹,有流量有市場,且前期在C端以免費模式實現(xiàn)DAU的閃電式擴張,頭部大廠自然會迅速跟進。
即便是放眼整個中國互聯(lián)網(wǎng)歷史上,像DeepSeek這樣得到全行業(yè)追捧和爭搶接入的產(chǎn)品,除了去年的“原生鴻蒙熱”,幾乎很難找到其他案例。
最后,回到應(yīng)用側(cè),DeepSeek以低成本和低功耗支持復(fù)雜AI任務(wù)運行,推動AI進一步下沉至智能終端、汽車智駕和產(chǎn)業(yè)側(cè)。
以廠商為例,華為、榮耀、OPPO、vivo、魅族、努比亞等手機品牌宣布在AI助手接入DeepSeek。
長期來看,手機廠商集體擁抱DeepSeek,一方面有利于其擴充云端AI生態(tài),另一方面,也有望不斷拉動手機SoC需求量,在端側(cè)、邊緣側(cè),誕生更多的軟硬件升級。
高通CEO安蒙近期在財報電話會上表示:“DeepSeek-R1和其他類似模型最近表明,AI模型正在發(fā)展得更快、更小、更強大、更高效,并且現(xiàn)在能夠直接在設(shè)備上運行。”
02 算力與有效算力:一邊閑置,一邊短缺
伴隨“接入DeepSeek”浪潮而來的,是服務(wù)器繁忙的提示。
如果從用戶直接體驗來看,服務(wù)器繁忙、延遲加劇,就連硅基流動也開始不得不限流,尋求更多的算力資源,特別當攜移動互聯(lián)網(wǎng)時代超級應(yīng)用入場的大廠,龐大的用戶量更加劇了對算力的焦慮。
硅基流動袁進輝宣布因需求大開始限流
這些DeepSeek“朋友圈”,它們的算力到底夠不夠?
「硅基研究室」多方了解到,在這一問題上,行業(yè)目前的共識是短期算力洗牌,長期算力短缺。
「短期算力洗牌」指的是DeepSeek打破了過去模型廠商“大力出奇跡”的敘事,它在模型架構(gòu)、預(yù)訓(xùn)練和推理側(cè)的系統(tǒng)級工程手段,拉低了模型部署的算力門檻,短期內(nèi)給國產(chǎn)芯片、算力服務(wù)商等整合國產(chǎn)算力、推動國產(chǎn)算力洗牌提供了機會窗口。
具體來看又可以分為兩方面,一是給國產(chǎn)芯片提供了更多機會;二是解部分智算中心算力閑置的困局。
關(guān)于第一點,一直以來,強勁性能都是英偉達高端GPU的護城河,也是起步較晚的國產(chǎn)芯片的一大軟肋。
DeepSeek的出現(xiàn)一定程度上降低了對高性能芯片的依賴,作為采用MoE架構(gòu)的大模型,DeepSeek對芯片訓(xùn)練性能的要求并不高,即便是像英偉達H20這樣的性能閹割版GPU,也可以勝任DeepSeek的本地化部署需求,甚至成為了目前渠道端的“熱銷貨”。
一位芯片渠道商告訴「硅基研究室」,H20 141GB八卡服務(wù)器目前是120萬一臺,是期貨,要等4-6周,96GB H20八卡服務(wù)器還有不少現(xiàn)貨,但“每天一個價”。
相較于訓(xùn)練場景,DeepSeek對于硬件側(cè)的需求更多聚焦在“堆料環(huán)節(jié)”。
陳巍告訴「硅基研究室」,“像DeepSeek這樣的超大超稀疏MoE模型,顯存遠遠不夠用。從產(chǎn)業(yè)角度而言,適配高端GPU的高帶寬存儲器(HBM)又很貴?!?/p>
這意味著,單純靠增大GPU顯存來適配DeepSeek,會憑空增加巨大的成本。
這也是為什么,業(yè)內(nèi)一直在探索更具性價比的部署方案?!耙环N合理的部署方式就是CPU/GPU多專家多顯卡的部署方案,還有一種是直接用CPU的內(nèi)存去充當不常用細分專家的存儲緩存?!标愇≌f。
而這兩種方案所對應(yīng)的“算力性價比”和“異構(gòu)協(xié)同”能力,正是國產(chǎn)芯片長期發(fā)力的差異化優(yōu)勢。
另有大模型行業(yè)人士提到,國產(chǎn)生態(tài)對DeepSeek也并不陌生,2024年DeepSeek發(fā)布第二代開源大模型DeepSee-V2時,硅基流動就基于英偉達生態(tài)上線了推理服務(wù),對其模型架構(gòu)等方面也十分熟悉。
AI Infra廠商所做的工作涵蓋了數(shù)據(jù)準備、模型訓(xùn)練、部署和應(yīng)用整合等,硅基流動主要通過其模型云服務(wù)平臺SiliconCloud、大語言模型推理引擎SiliconLLM等產(chǎn)品,讓模型能力能按需調(diào)用。打個比方,它們相當于是一個“廚師”,將原始算力資源加工成符合用戶需求的“成品菜”,自上線DeepSeek R1/V3推理服務(wù)后,SimilarWeb數(shù)據(jù)顯示,給硅基流動帶來了數(shù)十倍的流量增長,目前SiliconCloud已獲得了超三百萬的用戶。
而對一些部署國產(chǎn)芯片的智算中心而言,DeepSeek出圈也短期解決了算力閑置和碎片化問題,上述智算中心服務(wù)商李楊算過一筆賬,中國智算中心項目目前已超過600個(包括在建),各地也在興建千卡、萬卡算力資源池。
據(jù)機構(gòu)「IDC圈」不完全統(tǒng)計,截至2024年11月20日,中國智算中心項目已經(jīng)達到634個。
轟轟烈烈的“算力浪潮”之下,為何還會出現(xiàn)「閑置問題」?
在李楊看來,DeepSeek出圈前,國產(chǎn)算力中心缺少一個成本低、性能好且開源的模型?!爸撬阒行拇蠖嗍菄a(chǎn)卡,一個大模型火了,每次都要適配一堆,加上人力有限,沒有好的開源模型,所以很多最后沒有用起來?!?/p>
另一個原因在于,算力中心主要面向產(chǎn)業(yè)、學(xué)界等,客戶對算力成本也很敏感。過去在推理側(cè),智算中心以單卡形式提供算力服務(wù),智算中心的集群規(guī)?;?yīng)并沒有凸顯,國產(chǎn)算力得不到有效消耗。
“成本和產(chǎn)能就是主要問題,產(chǎn)能低的芯片價格高,只有產(chǎn)能穩(wěn)定才能有規(guī)模效應(yīng),降低智算中心成本?!崩顥罡嬖V「硅基研究室」。
但DeepSeek打破了這個窘境:首先,國產(chǎn)芯片廠商反應(yīng)迅速,其次,作為李楊口中一個真正“好的開源大模型”,它帶動了上下游生態(tài),疊加政策驅(qū)動,推動過去閑置的國產(chǎn)算力真正地用起來。
除此以外,作為中間層的AI Infra廠商也在迅速整合生態(tài)、加速算力市場洗牌,在DeepSeek牽引下,比如推出敏捷式的多并發(fā)一體機,以軟硬件一體化,提供更多元、高效的推理服務(wù)解決方案。
但短期洗牌過后,長期來看,算力還是短缺的。
訓(xùn)練和推理是AI芯片的主要任務(wù)場景,DeepSeek帶動智能算力結(jié)構(gòu)變化,推動Scaling Law向后訓(xùn)練、推理階段轉(zhuǎn)移。
據(jù)IDC數(shù)據(jù),2024年,中國智能算力規(guī)模達725.3百億億次/秒(EFLOPS),同比增長74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上。分結(jié)構(gòu)來看,未來智能算力內(nèi)部訓(xùn)練算力占比會下滑至27.4%,推理算力占比將上升到72.6%。
推理算力猛漲的背后,是行業(yè)對“AI加速滲透千行百業(yè)”的期待。
民生證券以目前日活量、日均token調(diào)用量為基礎(chǔ),對“超級應(yīng)用”接入DeepSeek做出了保守估算,10億級別DAU應(yīng)用接入DeepSeek且全面普及使用后,所需的推理算力規(guī)模約為28萬張H20。
東吳證券也以AI手機為例,測算得到端側(cè)算力需求在2024-2027年間基本維持翻倍以上的增速,AI手機云端算力需求折算成Blackwell GPU卡的FP8算力,在2025年的需求量約為12萬張。
“算力永不眠?!币晃淮竽P托袠I(yè)人士向「硅基研究室」這樣解釋,可以從大廠公布的Token消耗量粗暴理解算力長期需求。
去年12月18日,字節(jié)公布豆包通用大模型日均Token消耗量已超4萬億,百度在去年8月公布文心一言通用大模型日均處理Tokens文本超1萬億,而據(jù)火山引擎智能算法負責(zé)人吳迪此前預(yù)測,2027年豆包每天Token消耗量預(yù)計超過100萬億,是原來的100倍以上。
上述大模型行業(yè)人士稱,考慮到未來視頻推理、用戶量增長等因素,推理算力需求長期或向百萬卡邁進,“長期算力難以準確估計”。
事實上,中國科技大廠已經(jīng)進入新一輪的擴張周期——以阿里近兩年資本支出為例,分季度呈現(xiàn)出高增趨勢,部分季度甚至呈現(xiàn)三位數(shù)高增,阿里管理層在最新財報電話會給出的指引是——未來三年在云和AI的基礎(chǔ)設(shè)置投入將超越過去十年的總和,約為3800億元。
據(jù)「硅基研究室」不完全統(tǒng)計,開年后,多家中國云廠商宣布新節(jié)點計劃,阿里云在泰國、墨西哥新數(shù)據(jù)中心先后官宣啟用。
比中國科技大廠更早進入算力投資的是海外科技大廠,「硅基研究室」在《「DeepSeek恐慌」,為何難擋微軟們瘋狂撒錢?》中提到,拉長時間線看,從2023年Q2開始,微軟、Meta、亞馬遜和谷歌的資本支出就呈現(xiàn)出明顯的上升趨勢。
如果按「資本密集度」(資本支出占營收比重)這一指標看,2024年,微軟、Meta、亞馬遜和谷歌資本支出占總營收的17.2%,這一數(shù)字甚至高于上一輪大型能源公司的資本支出投入。
這究竟是一種害怕錯過的情緒,還是被擁躉的“杰文斯悖論”真相?沒有人能給出確切的答案。
此前Meta創(chuàng)始人扎克伯格也被彭博主持人問到:“數(shù)據(jù)中心的投資到底是不是泡沫?”無法正面回答的扎克伯格,只能從互聯(lián)網(wǎng)泡沫里找答案:“許多所謂的泡沫最終也會變得很有價值,這只是一個時間問題,我不知道AI最終會怎么發(fā)展,還是很難預(yù)測的。”
03 “算力游戲”與“效率游戲”
比起討論「是不是泡沫」,國產(chǎn)算力現(xiàn)階段還有更需要做的事。
于浩認為,這幾年國內(nèi)算力發(fā)展可以分為兩個階段:一是“小馬拉大車”,以追為始,集體將向OpenAI看齊,明星企業(yè)大量融資但望卡興嘆;二是“小米加步槍”,DeepSeek出圈破局,將每口糧食都吃在刀刃上,每顆子彈都瞄在靶心上,軟硬兼施,壓榨算力優(yōu)化到極致。
“行業(yè)需要更多的高性價比算力”,從2003年就開始在清華實驗室接觸人工智能的陳巍這樣總結(jié)。
在陳巍看來,首先是堅定地支持像DeepSeek這樣有價值的國產(chǎn)自主創(chuàng)新;其次是要積極復(fù)現(xiàn)DeepSeek的技術(shù)路線,以及在具體業(yè)務(wù)場景中“邊跑邊落地更具性價比”的算力方案?!按蠹乙嗟刂С窒馜eepSeek這樣的一個跨界聯(lián)合創(chuàng)新,而不僅僅是單點創(chuàng)新?!?/p>
單靠DeepSeek的一己之力,很難撬動硬件端國際大牌們的護城河。
以此前媒體所報道的“DeepSeek擊穿CUDA生態(tài)”為例,本質(zhì)上只是DeepSeek依托PTX(Parallel Thread Execution,CUDA生態(tài)內(nèi)部的中間指令集),繞過了CUDA生態(tài)的高層API,越級直接指揮、優(yōu)化底層硬件,但上述技術(shù)路線本質(zhì)上仍然在英偉達的框架內(nèi)尋求突破。
即便是聚焦技術(shù)路線創(chuàng)新DeepSeek,也仍然沒有完全繞過英偉達CUDA生態(tài),這意味著,在國產(chǎn)AI芯片側(cè),借DeepSeek之勢,抱團取暖,建立國內(nèi)自主可控的類CUDA生態(tài)是長期任務(wù)。
一位不愿透露姓名的服務(wù)器專家向「硅基研究室」表示,國產(chǎn)AI芯片現(xiàn)階段仍需要基于大模型做專門設(shè)計,例如“低精度高緩存”,加快支持FP8數(shù)據(jù)類型(DeepSeek采用了 FP8混合精度訓(xùn)練),讓推理更加便宜的同時,也利于下游服務(wù)器廠商的設(shè)計。
在云廠商及算力服務(wù)商側(cè),在豪賭之外,需要算大模型的經(jīng)濟賬——除了采購芯片外,數(shù)據(jù)中心建設(shè)還包括了能源配套、人力配套(運維、研發(fā))和數(shù)據(jù)資產(chǎn)等成本支出。
除此以外,在大模型抵達最終訓(xùn)練前,前期研究、所使用的數(shù)據(jù)訓(xùn)練等各環(huán)節(jié)的試錯成本,以及人員薪酬等這些也都是總成本的一部分,模型廠商并不會公開這些隱形成本。
因此,如何在算力建設(shè)的每一環(huán)降低資源浪費,這既考驗大廠各家的Infra能力,也考驗自身的預(yù)期管理。
海外云廠商的普遍做法有延長服務(wù)器折舊周期,與能源公司合作等手段,有的也及時止損。此前微軟就被曝出暫停了OpenAI計劃使用的威斯康星州人工智能數(shù)據(jù)中心的部分建設(shè),原因是高估了部分地區(qū)的算力需求。
一邊更合理地規(guī)劃資源,提升算力利用率。另一邊,巧妙施展財技,保證利潤率水平,這也是后續(xù)云廠商反應(yīng)在基本面上的趨勢。具體到模型側(cè),擁抱開源、持續(xù)優(yōu)化算法,已經(jīng)成為了當前各大廠商的階段共識。
與此同時,在應(yīng)用側(cè)推動產(chǎn)品爆發(fā)、落地,也成為了廠商們拓展“算力故事”的重點。根據(jù)「硅基研究室」多方了解,C端的個人Agent、B端的企業(yè)私有化部署以及G端的政務(wù)公共智算云,則是行業(yè)目前關(guān)注的三大方向。
如果說,過去OpenAI掀起的是一場算力游戲,那么DeepSeek出圈后,這場游戲還將繼續(xù),只不過它有了新的定語,這是一場“算力效率”的游戲。
盡管一度被砸掉6000億美金市值,黃仁勛還是多次對DeepSeek給予了正面評價,最新的財報電話會議中,他說:“感謝DeepSeek,它開源了一個絕對世界級的推理模型。”