文|財(cái)經(jīng)天下WEEKLY 趙小天
編輯 | 李不清
平替版Claude、和GPT-4“可以一戰(zhàn)”、震撼硅谷的“國(guó)產(chǎn)之光”……2025年初,AI圈的首炸,屬于脫胎于量化公司的DeepSeek。能用十分之一的價(jià)格、不到150人的研發(fā)團(tuán)隊(duì),對(duì)打硅谷頭牌大模型,DeepSeek的秘密何在?
當(dāng)全球“AGI信仰”正因技術(shù)放緩遭遇挑戰(zhàn),“AI六小虎”的光芒開(kāi)始褪色,沉寂的大模型領(lǐng)域急需一個(gè)振奮人心的新故事。
作為開(kāi)年AI圈首炸,DeepSeek頂著“國(guó)產(chǎn)之光”的新王冠橫空出世,震撼了海內(nèi)外的一眾科技大佬。
2024年12月,DeepSeek發(fā)布了最新的V3開(kāi)源模型,評(píng)測(cè)成績(jī)不僅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等頂級(jí)開(kāi)源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等頂級(jí)閉源模型掰掰手腕。
更令人振奮的是,DeepSeek的故事很大程度上,打破了困擾國(guó)產(chǎn)大模型許久的算力芯片限制瓶頸。
V3模型是在2000塊英偉達(dá)H800 GPU(針對(duì)中國(guó)市場(chǎng)的低配版 GPU)上訓(xùn)練完成的,而硅谷大廠模型訓(xùn)練普遍跑在幾十萬(wàn)塊更高性能的英偉達(dá)H100 GPU上。
這也讓DeepSeek的訓(xùn)練成本得以被極大壓縮。SemiAnalysis數(shù)據(jù)顯示,OpenAI GPT-4訓(xùn)練成本高達(dá)6300萬(wàn)美元,而DeepSeek-V3成本只有其十分之一不到。
12月底,雷軍開(kāi)出千萬(wàn)年薪挖角DeepSeek研究員羅福莉的新聞,也讓人們把更多目光投向了這個(gè)神秘團(tuán)隊(duì)。
據(jù)報(bào)道,DeepSeek包括創(chuàng)始人梁文鋒在內(nèi),僅有139名工程師和研究人員。與之對(duì)比,OpenAI有1200名研究人員,Anthropic則有500多名研究人員。
2024年,這家鮮少做營(yíng)銷(xiāo)投放、創(chuàng)始團(tuán)隊(duì)極為低調(diào)的公司,還游離在主流視野之外。第一次引起普遍關(guān)注,還是因6個(gè)月前,DeepSeek首次掀起了大模型價(jià)格戰(zhàn),而被稱(chēng)作“AI界的拼多多”。
如今,沒(méi)有尋求過(guò)外部融資、創(chuàng)始人有“囤卡富翁”之稱(chēng)、團(tuán)隊(duì)全是“清北等名校年輕人出品”——一串吸睛的標(biāo)簽,讓這家AI創(chuàng)業(yè)圈的隱形巨頭走向臺(tái)前。
這一次,擺脫英偉達(dá)芯片束縛、技術(shù)平權(quán)的故事,輪到DeepSeek來(lái)講了。
01 在硅谷“出圈”了
平替版Claude、和GPT-4“可以一戰(zhàn)”、國(guó)產(chǎn)之光……2025年初的最大驚喜,屬于脫胎于量化公司的DeepSeek。
相比于大模型公司的大手筆投流,或如Kimi、豆包等頭部玩家還在用巨額營(yíng)銷(xiāo)換C端用戶(hù)認(rèn)知,DeepSeek的火熱出圈,讓故事有了“自上而下”的另一種講法。
2024年12月底,DeepSeek V3大模型發(fā)布后便完全開(kāi)源。模型測(cè)算數(shù)據(jù)顯示,DeepSeek V3雖然文字生成類(lèi)任務(wù)較弱,但其代碼、邏輯推理和數(shù)學(xué)推理能力均名列前茅。
圖片來(lái)源/DeepSeek官網(wǎng)
V3大模型上線后,DeepSeek同時(shí)上線了53頁(yè)論文,將模型的關(guān)鍵技術(shù)與訓(xùn)練細(xì)節(jié)和盤(pán)托出。
論文披露:V3整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)個(gè)GPU小時(shí)。相比之下,Llama 3 405B的訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)??紤]到V3訓(xùn)練芯片使用的是低配版的H800 GPU,其訓(xùn)練成本也被大幅縮減。這也動(dòng)搖了行業(yè)內(nèi),“大模型能力跟芯片限制強(qiáng)綁定”的普遍認(rèn)知。
OpenAI創(chuàng)始團(tuán)隊(duì)成員Andrej Karpathy發(fā)帖贊嘆:DeepSeek-V3性能高過(guò)Llama3最強(qiáng)模型,且耗費(fèi)資源僅十分之一,“未來(lái)或許不需要超大規(guī)模的GPU集群了”。
這也為長(zhǎng)期受算力限制的創(chuàng)業(yè)團(tuán)隊(duì)們,提出了一個(gè)新解法——即便在算力有限的情況下,使用高質(zhì)量數(shù)據(jù)、更好的算法,同樣能訓(xùn)練出高性能大模型。
Meta科學(xué)家田淵棟驚嘆道:“FP8預(yù)訓(xùn)練、MoE、預(yù)算非常有限的強(qiáng)大性能、從CoT中提取以進(jìn)行引導(dǎo)……哇!這是偉大的工作!”
性能更強(qiáng)、速度更快的模型上線,也把DeepSeek的API調(diào)用定價(jià)進(jìn)一步打了下來(lái)。近日,官方宣布DeepSeek的tokens價(jià)格調(diào)整為每百萬(wàn)輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬(wàn)輸出tokens 8元。
圖片來(lái)源/DeepSeek官網(wǎng)
V3的發(fā)布,也引發(fā)了國(guó)內(nèi)專(zhuān)業(yè)開(kāi)發(fā)者社區(qū)的熱烈討論。不少AI應(yīng)用層創(chuàng)業(yè)者、從業(yè)人士贊嘆:“V3是用過(guò)的國(guó)產(chǎn)大模型里,編碼能力最強(qiáng)的?!?/p>
有AI從業(yè)者在業(yè)務(wù)場(chǎng)景中應(yīng)用后認(rèn)為:“DeepSeek是目前國(guó)內(nèi)唯一一個(gè)可以跟4o、Sonnet平起平坐的國(guó)產(chǎn)LLM(大語(yǔ)言模型)?!?/p>
能從系統(tǒng)角度,讓模型越來(lái)越便宜,也給最近日趨焦灼的卷卡、卷算力、卷商業(yè)落地的大模型之戰(zhàn),提供了一種新的解法。
02 偏愛(ài)競(jìng)賽生,學(xué)院派管理
那么,能打造出如此低成本、高質(zhì)量的模型,DeepSeek的團(tuán)隊(duì)又是怎樣一群人?
實(shí)際上,早在DeepSeek出圈前,AI業(yè)界對(duì)它的技術(shù)實(shí)力評(píng)價(jià)便非常高。只是因?yàn)楣静蝗谫Y,創(chuàng)始人鮮少露面,公司不做C端應(yīng)用,以至于公眾認(rèn)知度偏弱。
從公開(kāi)資料來(lái)看,DeepSeek團(tuán)隊(duì)最大的特點(diǎn)就是名校、年輕。有大模型領(lǐng)域的獵頭告訴《財(cái)經(jīng)天下》,當(dāng)下“C9”院校的高端人才各家都在爭(zhēng)搶。“DeepSeek更著重宣傳,符合他們家年輕化,求知欲的價(jià)值觀。”
即使是團(tuán)隊(duì)leader級(jí)別,年紀(jì)也多在35歲以下。該獵頭表示,DeepSeek管理崗很少內(nèi)部提升,大多挖的是有經(jīng)驗(yàn)的,也會(huì)卡年齡。“我們這邊推薦的幾個(gè)leader崗,超過(guò)40歲沒(méi)有特別大的優(yōu)勢(shì),人家看都不愿意看?!?/p>
DeepSeek創(chuàng)始人梁文鋒在接受36氪采訪時(shí),曾透露過(guò)招人標(biāo)準(zhǔn):看能力,不看經(jīng)驗(yàn),核心技術(shù)崗位以應(yīng)屆和畢業(yè)一兩年為主。
衡量年輕畢業(yè)生“優(yōu)秀”與否的標(biāo)準(zhǔn),除了院校,還有競(jìng)賽成績(jī),“基本金獎(jiǎng)以下就不要了”。
DeepSeek也不偏好資深的技術(shù)人。例如,DeepSeekMath的三名核心作者,朱琪豪、邵智宏、Peiyi Wang,是在博士實(shí)習(xí)期間完成了相關(guān)的研究工作。V3研究成員代達(dá)勱,2024年才剛從北大獲得博士學(xué)位。
在管理上,DeepSeek采取的是淡化職級(jí)、極為扁平的文化,將團(tuán)隊(duì)一直控制在150人左右的規(guī)模。用粗暴砸錢(qián)、給卡,相當(dāng)扁平和“學(xué)院派”的管理方式,挽留人才。
梁文鋒將這種組織形式形容為“自下而上”“自然分工”:“每個(gè)人有自己獨(dú)特的成長(zhǎng)經(jīng)歷,都是自帶想法的,不需要push他……當(dāng)一個(gè)idea顯示出潛力,我們也會(huì)自上而下地去調(diào)配資源。”
“只招1%的天才,去做99%中國(guó)公司做不到的事情?!痹?jīng)面試過(guò)DeepSeek的應(yīng)屆生如此評(píng)價(jià)其招聘風(fēng)格。
這種人才選擇和管理模式,某種程度上很像OpenAI。二者都更像是純粹的研究機(jī)構(gòu)——早期不融資,不做應(yīng)用,不考慮商業(yè)化。
在當(dāng)下AI大模型市場(chǎng)漸趨飽和之下,DeepSeek也因不爭(zhēng)搶排名座次,不造輿論聲勢(shì),重用應(yīng)屆生,專(zhuān)注做底層技術(shù)優(yōu)化,成為了國(guó)內(nèi)為數(shù)不多還在招攬有“AGI信仰”人才的公司。
實(shí)際上,從DeepSeek創(chuàng)立之初,它的履歷便像個(gè)行業(yè)“異類(lèi)”。
2023年,DeepSeek的AI產(chǎn)品正式對(duì)外亮相。此前數(shù)年,該公司曾對(duì)該產(chǎn)品內(nèi)部“孵化”許久,并對(duì)外招聘過(guò)文科人才,職位定位為“數(shù)據(jù)百曉生”,提供歷史、文化、科學(xué)等相關(guān)知識(shí)來(lái)源。
DeepSeek的母公司是梁文鋒在2015年創(chuàng)立、量化基金起家的幻方量化。作為一個(gè)“80后”,梁文鋒本科、研究生都就讀于浙江大學(xué),擁有信息與電子工程學(xué)系本科和碩士學(xué)位。
幻方量化也是頭部量化基金中的“例外”:多數(shù)量化基金創(chuàng)始班底,都或多或少有海外對(duì)沖基金的履歷。唯獨(dú)幻方完全靠本土班底起家,獨(dú)自摸索著長(zhǎng)大——這跟DeepSeek 的用人風(fēng)格也極其相似。
2017年,幻方量化宣稱(chēng)實(shí)現(xiàn)投資策略全面AI化。2019年,其資金管理規(guī)模超100億,成為國(guó)內(nèi)量化私募“四巨頭”之一,也一度是國(guó)內(nèi)首家突破千億私募的量化大廠。
當(dāng)幻方量化規(guī)模節(jié)節(jié)攀升時(shí),梁文鋒卻開(kāi)始轉(zhuǎn)移視野。
在業(yè)界,幻方一直以敢于在硬件上投入著稱(chēng),以支撐其交易系統(tǒng)的實(shí)施。2017年前后,梁文鋒開(kāi)始涉足AI相關(guān)探索,探索孵化AI項(xiàng)目“螢火蟲(chóng)”。2018年,“螢火蟲(chóng)”超級(jí)計(jì)算機(jī)對(duì)外正式亮相,并稱(chēng)計(jì)算機(jī)占地面積為數(shù)個(gè)籃球場(chǎng),前后投入超過(guò)10億元。
2021年,在梁文鋒參與的論文中提到,他們正在部署的螢火二號(hào)系統(tǒng),“配備了1萬(wàn)張A100GPU芯片”,在性能上接近DGX-A100(英偉達(dá)推出的人工智能專(zhuān)用超級(jí)計(jì)算機(jī)),但成本降低了一半,同時(shí)能耗減少了40%——業(yè)界通常認(rèn)為,1萬(wàn)枚英偉達(dá)A100芯片是做自訓(xùn)大模型的算力門(mén)檻,當(dāng)時(shí)國(guó)內(nèi)超過(guò)1萬(wàn)枚GPU的企業(yè)不超過(guò)5家。
GPU芯片的豐厚儲(chǔ)備,也為幻方量化接下來(lái)的轉(zhuǎn)型提供了基礎(chǔ)。
2023年5月,梁文鋒實(shí)控的AI研發(fā)機(jī)構(gòu)北京“深度求索”成立,次年DeepSeek正式上線。從這時(shí)起,幻方量化也開(kāi)始主動(dòng)縮減資金規(guī)模,不再參與量化基金第一梯隊(duì)的競(jìng)爭(zhēng)。
2024年10月,幻方量化向投資者公告稱(chēng),計(jì)劃逐步將對(duì)沖產(chǎn)品投資倉(cāng)位降低至零。該公司部分對(duì)沖系列產(chǎn)品規(guī)模已經(jīng)降至千萬(wàn)元以下。至2025年初,公司資金管理規(guī)模已小于300億,退出了行業(yè)前六名。
03 最像OpenAI的中國(guó)公司
從量化基金轉(zhuǎn)型后,能在短時(shí)間內(nèi)沖上AI頭部玩家,DeepSeek的“神奇”技術(shù)在其53頁(yè)的論文中,也并不是秘密。
界面新聞報(bào)道,V3模型主要采用了模型壓縮、專(zhuān)家并行訓(xùn)練、FP8混合精度訓(xùn)練等一系列創(chuàng)新技術(shù)降低成本。作為新興的低精度訓(xùn)練方法,F(xiàn)P8技術(shù)通過(guò)減少數(shù)據(jù)表示所需的位數(shù),顯著降低了內(nèi)存占用和計(jì)算需求。目前,零一萬(wàn)物、谷歌、Inflection AI都已將這種技術(shù)引入模型訓(xùn)練與推理中。
此外,在預(yù)訓(xùn)練階段,對(duì)性能影響有限的地方,DeepSeek選擇了極致壓縮。而在后訓(xùn)練階段,對(duì)模型擅長(zhǎng)的領(lǐng)域,他們又傾注全力提升。
核心人才也帶來(lái)了關(guān)鍵的技術(shù)創(chuàng)新。量子位報(bào)道,2024年5月發(fā)布的DeepSeek-V2中,其創(chuàng)造性地提出了一種“新型注意力”,在Transformer架構(gòu)的基礎(chǔ)上,用MLA(Multi-head Latent Attention)替代了傳統(tǒng)的多頭注意力,大幅減少了計(jì)算量和推理顯存。
其中,高華佐和曾旺丁為MLA架構(gòu)做出了關(guān)鍵創(chuàng)新。高華佐目前只知道是北大物理系畢業(yè),這個(gè)名字在“大模型六小虎”之一的階躍星辰專(zhuān)利信息中,也可以看到。
DeepSeek-V2還涉及了另一項(xiàng)關(guān)鍵成果——GRPO。這是PPO的一種變體RL算法,顯著減少了訓(xùn)練資源的需求。在開(kāi)源大模型阿里Qwen 2.5的技術(shù)報(bào)告中,GRPO技術(shù)也有所體現(xiàn)。
這些技術(shù)創(chuàng)新,也為當(dāng)下有些“困窘”的國(guó)內(nèi)大模型未來(lái)發(fā)展,提供了一種新的解題思路。
特別是2024年下半年,長(zhǎng)文本市場(chǎng)競(jìng)爭(zhēng)已在字節(jié)的“飽和式攻擊”下逐漸塵埃落定。AI圈中出現(xiàn)了一種無(wú)奈共識(shí):在大廠射程范圍內(nèi),做類(lèi)ChatGPT產(chǎn)品已經(jīng)沒(méi)有機(jī)會(huì),必須要做出差異化。
大模型競(jìng)賽也進(jìn)入了下一段更艱巨的賽程,成為了一場(chǎng)拼資源的“戰(zhàn)爭(zhēng)”,要拼資金、人才密度、數(shù)據(jù)算力能力。
去年還風(fēng)光無(wú)限的“大模型六小虎”正在加速尋找垂類(lèi)場(chǎng)景商業(yè)化機(jī)會(huì)。近期,MiniMax轉(zhuǎn)戰(zhàn)文生視頻,宣布要跟Sora掰手腕;智譜則瞄準(zhǔn)智能體(Agent)市場(chǎng),從做智能體商店到邀測(cè)PC端智能體;百川智能逐漸專(zhuān)注于醫(yī)療市場(chǎng);零一萬(wàn)物則宣布深耕零售營(yíng)銷(xiāo)業(yè)務(wù),不再追求AGI。
而DeepSeek能夠奇襲,很大程度上源于和頭部大模型公司保持距離,遠(yuǎn)離融資的熱鬧和商業(yè)化的壓力。
在梁文鋒為數(shù)不多的發(fā)聲中,他表示DeepSeek創(chuàng)立初期,就在接觸投資圈后清醒認(rèn)識(shí)到,“很多VC對(duì)做研究有顧慮,他們有退出需求,希望盡快做出產(chǎn)品商業(yè)化。而按照我們優(yōu)先做研究的思路,很難從VC那里獲得融資”。
他也對(duì)外表達(dá)過(guò)“短期內(nèi)沒(méi)有融資計(jì)劃”,并認(rèn)為當(dāng)下面臨的問(wèn)題“從來(lái)不是錢(qián),而是高端芯片(短缺)”。
梁文鋒也明確提出,硅谷對(duì)DeepSeek“驚嘆”的原因——“因?yàn)檫@是一個(gè)中國(guó)公司,在以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去。畢竟大部分中國(guó)公司習(xí)慣follow,而不是創(chuàng)新?!?/p>
“中國(guó)也要逐步成為貢獻(xiàn)者,而不是一直搭便車(chē)。”梁文峰說(shuō)?!拔覀円呀?jīng)習(xí)慣摩爾定律從天而降,躺在家里18個(gè)月就會(huì)出來(lái)更好的硬件和軟件,Scaling Law(規(guī)模定律)也在被如此對(duì)待。但其實(shí),這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來(lái)的,只因?yàn)橹拔覀儧](méi)有參與這個(gè)過(guò)程,以至于忽視了它的存在?!?/p>
梁文鋒認(rèn)為,中國(guó)AI的發(fā)展,同樣需要這樣的生態(tài)?!昂芏鄧?guó)產(chǎn)芯片發(fā)展不起來(lái),也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),只有第二手消息,中國(guó)必然需要有人站到技術(shù)的前沿。”