文|硅谷101
2024年12月底,中國幻方量化旗下的人工智能團(tuán)隊(duì),發(fā)布了6700億參數(shù)大語言基礎(chǔ)模型DeepSeek V3,緊接著在2025年1月20日開源了基于V3的兩款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。一周之后,DeepSeek又推出開源多模態(tài)模型Janus。
震驚全球AI屆的點(diǎn)在于:DeepSeek使用想象不到的低成本,得到了不輸OpenAI推理模型o1太多的性能。這代表著潛在對AI大模型發(fā)展范式的顛覆、對GPU算力市場的影響、以及對AI初創(chuàng)企業(yè)生態(tài)的改變。
硅谷101在春節(jié)期間組成了五人小分隊(duì),采訪了數(shù)十位嘉賓,想從技術(shù)、資本、市場等等多個(gè)緯度來聊聊DeepSeek:
1. DeepSeek的技術(shù)創(chuàng)新在哪里?
2. DeepSeek對AI發(fā)展會帶來哪些影響?包括OpenAI、Antrhopic這樣的閉源公司,和Meta這樣開源AI公司的影響,對英偉達(dá)這樣的算力需求的影響,以及對開發(fā)應(yīng)用和創(chuàng)業(yè)生態(tài)的影響。
3. DeepSeek為什么會是一家量化金融公司孵化出來的、幻方是一家什么樣的公司?
2025年1月底在媒體聚集的達(dá)沃斯論壇上,微軟CEO Satya Nadella以及Scale AI創(chuàng)始人Alexandr Wang的發(fā)言直接將DeepSeek推到風(fēng)口浪尖...
Satya Nadella
微軟CEO:
我們必須高度重視中國在人工智能領(lǐng)域的發(fā)展。
Alexandr Wang
Scale AI創(chuàng)始人:
我們發(fā)現(xiàn)作為中國頂尖的AI實(shí)驗(yàn)室,DeepSeek開發(fā)的模型實(shí)際上表現(xiàn)最為出色,或者說,已經(jīng)與美國最優(yōu)秀的模型處于同一水平線。
這直接導(dǎo)致了1月27日美股市場中,英偉達(dá)重挫17%,蒸發(fā)市值5600億美元,創(chuàng)下美國上市公司單日損失紀(jì)錄。
研究DeepSeek時(shí),我們發(fā)現(xiàn)產(chǎn)業(yè)中依然有一些非共識和巨大爭議,包括對DeepSeek模型“蒸餾/套殼”、“數(shù)據(jù)盜竊”、成本估算、算力提供還有安全性能的攻擊和指責(zé)。我們試圖收集業(yè)內(nèi)人士的看法拋磚引玉,希望提供一個(gè)供大家理性探討和交流的空間。
01 DeepSeek的技術(shù)創(chuàng)新
拋開DeepSeek的眾多爭議,在硅谷的共識是:這個(gè)又便宜又好的模型,確實(shí)有扎扎實(shí)實(shí)的創(chuàng)新在。這樣的創(chuàng)新并不是技術(shù)創(chuàng)新,更多的是工程上的創(chuàng)新:讓AI大模型訓(xùn)練和推理變得更高效、更便宜。
DeepSeek目前發(fā)布了三個(gè)更新:
1.6700億參數(shù)的大語言基礎(chǔ)模型DeepSeek V3;
2.使用無監(jiān)督數(shù)據(jù)、借助增強(qiáng)學(xué)習(xí)方式,在數(shù)學(xué)和代碼專業(yè)問題上微調(diào)得到的推理模型DeepSeek-R1-Zero;
3.在DeepSeek-R1-Zero基礎(chǔ)上,混入更多帶有標(biāo)簽的監(jiān)督數(shù)據(jù),提高模型綜合能力而得到的DeepSeek-R1。
首先來看DeepSeek在基礎(chǔ)大模型V3架構(gòu)上的創(chuàng)新。
Chapter 1.1 V3架構(gòu)創(chuàng)新
DeepSeek在2024年5月發(fā)布的V2模型中已介紹兩項(xiàng)主要的架構(gòu)創(chuàng)新:混合專家結(jié)構(gòu)(MoE)和多頭潛在注意力機(jī)制(MLA)。
這兩項(xiàng)技術(shù)在隨后發(fā)布的V3模型中體現(xiàn)出的效果更加明顯:DeepSeek聲稱V3模型訓(xùn)練耗時(shí)278.8萬個(gè)H800 GPU 小時(shí),按照每GPU小時(shí)2美元的租賃成本計(jì)算,訓(xùn)練成本總共只需要557.6萬美元。
Yubei Chen
AIZIP.AI聯(lián)合創(chuàng)始人
加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授
DeepSeek V3重要的點(diǎn)在于模型架構(gòu)的效率提升。
第一是混合專家結(jié)構(gòu)(MoE):以前不同的專家負(fù)載均衡做的不太好,所以分散到不同負(fù)載節(jié)點(diǎn)時(shí),它的負(fù)載均衡會有問題,DeepSeek則在這一點(diǎn)上做了優(yōu)化。
第二是多頭潛在注意力(Multi-Head Latent Attention,簡稱MLA)層級,MLA的核心思想是減少KV cache(Key-Value緩存),也是在提高架構(gòu)效率和模型的性能。
這兩點(diǎn)作為DeepSeek的核心創(chuàng)新,使得它在6000億參數(shù)的Megatron級別的大模型上,基礎(chǔ)模型的表現(xiàn)其實(shí)挺不錯(cuò)了。
可能有的觀眾對AI模型了解較少、或者不太理解Yubei Chen的發(fā)言,硅谷101的特約研究員魯漪文將為大家簡單解釋下。
我們需要重點(diǎn)關(guān)注“MoE”和“MLA”這兩個(gè)概念。
打個(gè)比方:MoE(混合專家結(jié)構(gòu))就像一家餐廳里的一群頂級廚師,每個(gè)廚師專攻一道菜,而一位聰明的服務(wù)員會根據(jù)顧客的點(diǎn)菜需求,動(dòng)態(tài)分配任務(wù)給最擅長那道菜的廚師。
比如我既想吃麻婆豆腐,又想吃提拉米蘇,那么就可以由一位川菜師傅和一位甜點(diǎn)師傅分別做這兩道菜,其他的廚師則可以休息;
而傳統(tǒng)的架構(gòu)更像是一位全能型廚師,需要做所有菜,這樣一來,消耗的時(shí)間和精力也就更高。
所以MoE(混合專家結(jié)構(gòu))這種設(shè)計(jì)大模型的方法,核心是通過動(dòng)態(tài)路由機(jī)制,將輸入數(shù)據(jù)分配到不同的子網(wǎng)絡(luò)(或者說專家)進(jìn)行處理。
每次應(yīng)用的時(shí)候只激活部分專家以提高計(jì)算的效率,降低訓(xùn)練和推理的成本。最后在6700億參數(shù)中,DeepSeek V3只需要激活370億參數(shù)。
值得一提的是,這并不是DeepSeek原創(chuàng)的方法。
Zach Richardson
TINY FISH AI負(fù)責(zé)人
前META PYTORCH機(jī)器學(xué)習(xí)工程經(jīng)理:
Mixture of Experts(MoE)在五年前、甚至更久之前就有了。它最早的應(yīng)用甚至并不在LLM(大語言模型)領(lǐng)域,而是被用于其他模型,尤其是在廣告投放或廣告預(yù)測方面,Google早期就曾使用過這種方法。
我認(rèn)為這里一個(gè)重大變化是,其他實(shí)驗(yàn)室并不需要采用這種方法,因?yàn)樗麄儧]有遇到類似的資源限制,能一直穩(wěn)定地提升模型性能。而DeepSeek團(tuán)隊(duì)的資源限制相當(dāng)嚴(yán)格。
因?yàn)榛旌蠈<蚁到y(tǒng)(MoE)是建立了一個(gè)“專家團(tuán)隊(duì)”,團(tuán)隊(duì)中的交流也至關(guān)重要。我們的采訪嘉賓說,DeepSeek“讓正確的人完成了正確的合作”,這就是DeepSeek團(tuán)隊(duì)在原有技術(shù)基礎(chǔ)上創(chuàng)新的點(diǎn)。
Zach Richardson
TINY FISH AI負(fù)責(zé)人
前META PYTORCH機(jī)器學(xué)習(xí)工程經(jīng)理:
要真正優(yōu)化這一點(diǎn)并實(shí)現(xiàn)這樣的成果需要軟件工程師和硬件工程師密切配合——分析網(wǎng)絡(luò)日志、監(jiān)測網(wǎng)絡(luò)通信量和延遲的影響,并進(jìn)行精細(xì)的協(xié)調(diào)。我認(rèn)為這正是關(guān)鍵所在:更大的公司多人協(xié)作時(shí),做到這種精準(zhǔn)配合是一項(xiàng)巨大的挑戰(zhàn)。
DeepSeek另一個(gè)架構(gòu)上的創(chuàng)新叫做多頭潛在注意力(Multi-Head Latent Attention,簡稱MLA),能解決內(nèi)存限制問題。
V3又在此基礎(chǔ)應(yīng)用了多token預(yù)測技術(shù)(MTP),增加了注意力模塊以預(yù)測接下來的多個(gè)而非單個(gè)token,在訓(xùn)練過程中提高了模型的性能。
真正讓DeepSeek火起來的,是之后兩個(gè)直接對打OpenAI o1的推理模型:DeepSeek-R1-Zero和DeepSeek-R1。
我們來看看這兩個(gè)模型上的創(chuàng)新點(diǎn)。
Chapter 1.2 從R1-zero到R1
R1出現(xiàn)之前,OpenAI的o1是市場上唯一一個(gè)推理模型。由于推理過程的嚴(yán)密性,推理模型更擅長于解答有標(biāo)準(zhǔn)答案的問題,比如寫代碼、解數(shù)學(xué)題等等。
DeepSeek“出圈”的關(guān)鍵是作為推理模型,它不僅進(jìn)行思考,還詳細(xì)地列出了思考過程。
在此之上,DeepSeek更大的創(chuàng)新點(diǎn)在于R1的訓(xùn)練過程:無需任何人類反饋的強(qiáng)化學(xué)習(xí)。
我們先聊聊R1的前身——DeepSeek R1-Zero。DeepSeek團(tuán)隊(duì)提到,訓(xùn)練R1-zero時(shí)他們用了純粹的強(qiáng)化學(xué)習(xí)方法,以探索大模型是否能夠在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展出推理能力。
強(qiáng)化學(xué)習(xí)簡單來說就是給機(jī)器學(xué)習(xí)模型大量數(shù)據(jù)和一個(gè)獎(jiǎng)勵(lì)函數(shù)(reward function)。
AlphaGo從模仿人類到打敗人類的這一階段就利用了強(qiáng)化學(xué)習(xí):他完全摒棄了人類的棋譜,反而是在不斷的自我對弈中優(yōu)化策略。
然而,目前的大模型訓(xùn)練中是以基于人類反饋的強(qiáng)化學(xué)習(xí)為主(reinforcement learning from human feedback,簡稱RLHF)。在這種訓(xùn)練中,雖然人類會告訴模型哪種選擇是更優(yōu)的,但也有眾多弊端,包括人類反饋的不準(zhǔn)確性和偏見、獎(jiǎng)勵(lì)模型的泛化能力差以及策略優(yōu)化的困難等等。
DeepSeek在V3基礎(chǔ)模型之上,采用了GRPO(Group Relative Policy Optimization,群體相對策略優(yōu)化)的強(qiáng)化學(xué)習(xí)算法來提高模型的推理表現(xiàn)。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
OpenAI的模型訓(xùn)練方式是直接把所有數(shù)據(jù)喂給模型,也就是提供一整套問答數(shù)據(jù),讓模型接收所有信息進(jìn)行訓(xùn)練。
DeepSeek的模型訓(xùn)練方式采用了一種強(qiáng)化學(xué)習(xí)技術(shù),叫做 GRPO(群體相對策略優(yōu)化)。這意味著DeepSeek不是直接提供所有問答數(shù)據(jù),而是讓模型基于已有知識進(jìn)行優(yōu)化,以獲得更好的結(jié)果。這種方法極大地提升了訓(xùn)練效率,同時(shí)也大幅降低了訓(xùn)練成本。
OpenAI在此之前提出了另一個(gè)強(qiáng)化學(xué)習(xí)算法 PPO(Proximal Policy Optimization,近段策略優(yōu)化):通過Critic(批評模型)來衡量某個(gè)行動(dòng)對于當(dāng)前策略的優(yōu)劣,提供更穩(wěn)定的優(yōu)化效率。但是GRPO則去掉了Critic的部分,直接優(yōu)化策略本身、減少成本。
有意思的是,GRPO也不是新技術(shù)、甚至被業(yè)內(nèi)人士稱為“比PPO要退化的算法”,但DeepSeek就是用這種方式將大規(guī)模強(qiáng)化學(xué)習(xí)做得更高效了。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
GRPO 其實(shí)并沒有多么高深,它從某種意義上來說是PPO(近段策略優(yōu)化)的退化而不是進(jìn)化。DeepSeek只是用了GRPO(群體相對策略優(yōu)化)的方式去解決算力和算力性能的問題,從而解決大規(guī)模RL(Reinforcement learning,強(qiáng)化學(xué)習(xí))運(yùn)算的問題。
再回到強(qiáng)化學(xué)習(xí)本身:推理模型擅長解答有固定答案的問題,所以訓(xùn)練推理模型時(shí)我們能夠直接驗(yàn)證它的答案。
DeepSeek給了R1-Zero一系列數(shù)學(xué)、編程和邏輯問題,并設(shè)計(jì)了兩個(gè)獎(jiǎng)勵(lì)函數(shù):一個(gè)是給正確答案的,另一個(gè)則是確保輸出連貫、格式規(guī)范。DeepSeek團(tuán)隊(duì)讓模型嘗試多個(gè)不同的答案,再用這兩個(gè)獎(jiǎng)勵(lì)函數(shù)給它打分。
DeepSeek團(tuán)隊(duì)發(fā)現(xiàn),這樣的訓(xùn)練下只要給模型提供正確的激勵(lì),AI就可以自動(dòng)找到解決問題的策略和思路。
楊成
前SCALE AI工程高管
現(xiàn)具身智能創(chuàng)業(yè)者:
DeepSeek團(tuán)隊(duì)通過R1-Zero證明,僅使用可驗(yàn)證答案的方式,便可以通過強(qiáng)化學(xué)習(xí)訓(xùn)練出推理能力。雖然它沒有說具體成本,但大家可以通過它展示出的步驟量、數(shù)據(jù)算出大概。
我覺得非常多的公司已經(jīng)開始驗(yàn)證這種方法了,而且這個(gè)方式已經(jīng)被一些更小的模型、在更簡單的數(shù)據(jù)上做了一些驗(yàn)證,大家確實(shí)觀察到這個(gè)方式是有效的,所以接下來可能會激發(fā)非常多的創(chuàng)新。
但嘗試的過程中可能遇到的問題是:人類無法理解完全利用強(qiáng)化學(xué)習(xí)訓(xùn)練的模型輸出的內(nèi)容。
DeepSeek自己也提到R1-zero的可讀性很低,一個(gè)回答里甚至?xí)霈F(xiàn)多種語言。所以DeepSeek團(tuán)隊(duì)最終還是創(chuàng)建了新的監(jiān)督微調(diào)(Supervised Fine-Tuning,簡稱SFT)數(shù)據(jù)集,重新訓(xùn)練V3基礎(chǔ)模型得到今天的R1。
而R1的成功,證明了利用無監(jiān)督強(qiáng)化學(xué)習(xí)來訓(xùn)練推理模型的可行性,以及通過少量算力來提升模型性能的方法。高校團(tuán)隊(duì)、初創(chuàng)公司甚至大廠玩家,都能從中發(fā)現(xiàn)新機(jī)遇。
除了可能會顛覆AI大模型范式,DeepSeek還在全球AI屆引發(fā)了一些爭議和質(zhì)疑,包括其是否“蒸餾”了OpenAI模型、號稱的500萬美元低成本的真實(shí)性如何,以及潛在的安全漏洞和監(jiān)管問題,我們也與業(yè)內(nèi)人士聊了聊。
02 技術(shù)爭議
Chapter 2.1 模型蒸餾
DeepSeek面臨的一個(gè)爭議是“模型蒸餾”。
Fox和《金融時(shí)報(bào)》等媒體報(bào)道,OpenAI找到了DeepSeek“蒸餾”的證據(jù),這侵犯了OpenAI的知識產(chǎn)權(quán)。具體而言,OpenAI認(rèn)為DeepSeek在訓(xùn)練模型時(shí)使用了它們的數(shù)據(jù)。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
蒸餾意味著DeepSeek大量調(diào)用OpenAI的API(Application Programming Interface,應(yīng)用程序接口),并在OpenAI生成的結(jié)果基礎(chǔ)上進(jìn)行訓(xùn)練。這樣DeepSeek并不需要直接訪問OpenAI的模型也能提升自己的模型性能,這種方法被稱為黑箱蒸餾(Black-box Distillation)。
雖然目前確實(shí)存在一些指控,但OpenAI需要提供API使用情況的證據(jù),才能證明DeepSeek是從OpenAI蒸餾而來的:例如一些可疑的用戶在短時(shí)間內(nèi)向OpenAI發(fā)送大量API請求、或者DeepSeek的模型性能與OpenAI的模型高度相似,此外,DeepSeek生成的輸出或代碼與OpenAI的結(jié)果極為相近的話,也可能表明DeepSeek進(jìn)行了蒸餾。
硅谷科技從業(yè)者提到“蒸餾”是AI開發(fā)人員常用的一種做法:在較小的模型上通過使用更大、能力更強(qiáng)的模型的輸出,來獲得更好的性能,并以更低的成本在特定任務(wù)上獲得類似的結(jié)果。在業(yè)內(nèi),尤其是學(xué)術(shù)界,經(jīng)常使用蒸餾,有時(shí)整個(gè)訓(xùn)練數(shù)據(jù)集都是GPT輸出的內(nèi)容。
Zach Richardson
TINY FISH AI負(fù)責(zé)人
前META PYTORCH機(jī)器學(xué)習(xí)工程經(jīng)理:
老實(shí)說,我對此并不會感到特別驚訝。如果現(xiàn)在還有人在做大規(guī)模模型訓(xùn)練,卻完全沒有直接或間接利用閉源模型來生成訓(xùn)練數(shù)據(jù),我才會覺得意外。不過我更感興趣的是,OpenAI如何證明自己掌握了確鑿的證據(jù),我認(rèn)為要證明這點(diǎn)是相當(dāng)困難的。
OpenAI服務(wù)協(xié)議中規(guī)定,不得將其模型產(chǎn)生的數(shù)據(jù)用于開發(fā)OpenAI的競品,但這則規(guī)定究竟意味著什么卻很是模糊:
Nathan Lambert
艾倫人工智能研究所(AI2)研究科學(xué)家
INTERCONNECTS 博客作者:
OpenAI的服務(wù)條款規(guī)定,用戶不能利用其模型生成的輸出來構(gòu)建競爭產(chǎn)品。不過,服務(wù)條款(Terms of Service)與許可證(License)是不同的,許可證(License)本質(zhì)上是組織之間的合同,如果我違反了OpenAI的服務(wù)條款,OpenAI可以取消我的賬戶訪問權(quán)限;許可證則規(guī)定了下游產(chǎn)物的使用方式。
關(guān)鍵在于“競爭對手”究竟如何定義?這個(gè)概念在AI領(lǐng)域并不清晰,很多問題都取決于這個(gè)詞的具體解釋。
競爭對手的定義不清楚,OpenAI要證明DeepSeek蒸餾了模型或者“盜竊”了它的數(shù)據(jù)就更困難。而且,OpenAI目前也面臨著《紐約時(shí)報(bào)》等眾多知名媒體的法律訴訟,被控未經(jīng)許可、侵犯知識產(chǎn)權(quán)。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
想要確切證明存在蒸餾行為是非常困難的,除非OpenAI公開自己的代碼、模型架構(gòu)以及模型權(quán)重,否則即使有各種跡象,也很難拿出確鑿證據(jù)證明DeepSeek對OpenAI進(jìn)行了蒸餾。
因此,OpenAI現(xiàn)在陷入了兩難境地:他們想指控DeepSeek進(jìn)行蒸餾,但同時(shí)又無法在不損害自身模型保護(hù)的情況下拿出直接證據(jù)。
更諷刺的是,OpenAI過去曾被指控在訓(xùn)練模型時(shí)使用了受版權(quán)保護(hù)的數(shù)據(jù),而現(xiàn)在他們卻站出來指責(zé)DeepSeek竊取他們的數(shù)據(jù)。
這里的爭議其實(shí)是由于AI大模型業(yè)界的規(guī)范和法律并沒有及時(shí)追上發(fā)展;現(xiàn)在關(guān)于合規(guī)、合法、合理的定義和邊界都很含混。
硅谷有人將OpenAI與DeepSeek類比為"專利藥"與"仿制藥"。但醫(yī)藥界的這兩者實(shí)際存在專利保護(hù)和造福大眾的法律框架,AI產(chǎn)業(yè)的各種規(guī)范卻還未建立。也許我們可以期待未來AI界也會有進(jìn)一步法規(guī)和業(yè)界標(biāo)準(zhǔn)的完善。
Chapter 2.2 成本爭議
硅谷對DeepSeek的成本討論這么大,是因?yàn)閂3模型訓(xùn)練只用了557.6萬美元。
但這個(gè)數(shù)字并不是DeepSeek實(shí)際花的錢,而是用278.8萬個(gè)H800 GPU 小時(shí)乘以2美元/GPU小時(shí)的租賃成本計(jì)算的,但也是無法想象地低。
在硅谷流傳很廣的一篇來自Semianalysis的分析認(rèn)為,DeepSeek的預(yù)訓(xùn)練數(shù)字遠(yuǎn)不及模型實(shí)際花費(fèi)的金額,光是在DeepSeek的硬件支出就遠(yuǎn)高于5億美元。
此外,模型開發(fā)過程中還需要花費(fèi)大量資金來測試新想法和新架構(gòu),比如關(guān)鍵創(chuàng)新MLA(多頭潛在注意力)耗費(fèi)了數(shù)月開發(fā),當(dāng)中的團(tuán)隊(duì)人力和GPU小時(shí)都應(yīng)算作成本的一部分。
因此,有指責(zé)稱這個(gè)數(shù)據(jù)被部分媒體過度放大了,或者說,DeepSeek團(tuán)隊(duì)太用這個(gè)“一次性訓(xùn)練”的數(shù)據(jù)做噱頭:訓(xùn)練一次模型的費(fèi)用并不是燒錢大頭,此前的各種實(shí)驗(yàn)、失敗、開發(fā)、人力等成本加起來才有意義。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
一般來說,H100的租金大概在2.5美金左右。如果有那么大一個(gè)集群去retail(以零售方式)租,確實(shí)可以再便宜一點(diǎn)。但是事前的試錯(cuò)成本是非常高的:(模型訓(xùn)練)大多數(shù)的成本都不在那一次訓(xùn)練上面,而是在前面大量的試錯(cuò)。
所以我覺得這個(gè)對比是有一定價(jià)值的,但是在訓(xùn)練這事上如此對比,其實(shí)價(jià)值不是很大。
同時(shí),外界對幻方和DeepSeek到底用了什么卡眾說紛紜,是H100,H800,還是A100?
SemiAnalysis就認(rèn)為,DeepSeek有5萬張的英偉達(dá)Hopper GPU,包括1萬個(gè)H800單元、1萬個(gè)H100單元,以及額外購買的H20芯片。
這些外界的猜測無法證實(shí)真實(shí)性,但Bill的觀點(diǎn)很有意思:比起DeepSeek訓(xùn)練用的型號、成本,真正的重點(diǎn)在于:DeepSeek的技術(shù)創(chuàng)新,的確帶來了推理端的價(jià)格大幅下降。
而AI業(yè)界需要認(rèn)識到這個(gè)范式的重要性,并讓這個(gè)范式全面降低AI的推理價(jià)格。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
我覺得更重要的是去研究一下它的推理成本。大家很少提到DeepSeek的模型稀疏度非常高:它在進(jìn)行推理的時(shí)候,只有350億還是370億(相當(dāng)于1/20)的參數(shù)在訓(xùn)練時(shí)真正被激活;而大多數(shù)的大模型推理時(shí)真正被激活的參數(shù)量遠(yuǎn)高于DeepSeek。
所以雖然DeepSeek的訓(xùn)練成本很低,但這不是一個(gè)主要賣點(diǎn);它在推理時(shí)激活的參數(shù)量低,可能是一個(gè)更大的賣點(diǎn)——因?yàn)檫@是一個(gè)持續(xù)的消耗,當(dāng)一個(gè)模型被部署后,每一次推理都會產(chǎn)生消耗;而訓(xùn)練是一次性成本,完成之后就結(jié)束了。
如果說訓(xùn)練成本是一次性的大投入,推理成本就像是訂閱模式,需要不?;ㄥX。Bill認(rèn)為,從財(cái)務(wù)的角度來說推理成本可能遠(yuǎn)比訓(xùn)練成本重要,而對于開發(fā)者和應(yīng)用端,這才是一個(gè)改變游戲規(guī)則的事情。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
所以如果DeepSeek能夠?qū)⒓せ顓?shù)控制在300多億,那就意味著它整個(gè)推理所需要花的時(shí)長以及計(jì)算復(fù)雜度就會縮小很多。
雖然GPU存儲的量是不變的,即要加載這個(gè)模型還是需要這么多的GPU顯存,但是每一次推理所花的時(shí)長就變短了,一個(gè)單位GPU所可以算力的釋放就會變大,所以推理成本就會下來。
從這個(gè)角度來說,推理成本的下降可能對未來的推理方向,以及側(cè)重應(yīng)用層的公司都有著重大影響。
隨著DeepSeek的全球廣泛下載和討論熱度,關(guān)于模型安全和相關(guān)的法律風(fēng)險(xiǎn)也成為一些開發(fā)者關(guān)心的問題。
Chapter 2.3 安全漏洞與法律風(fēng)險(xiǎn)
2025年1月底,網(wǎng)絡(luò)安全公司W(wǎng)iz公開了一項(xiàng)研究結(jié)果:DeepSeek將一個(gè)關(guān)鍵數(shù)據(jù)庫暴露在互聯(lián)網(wǎng)上,泄露了系統(tǒng)日志、用戶提示,甚至用戶的 API 身份驗(yàn)證,總計(jì)超過100萬條記錄,任何人都可以訪問。
Wiz的調(diào)查報(bào)告顯示,這種訪問級別意味著對DeepSeek及用戶構(gòu)成了嚴(yán)重安全風(fēng)險(xiǎn):黑客攻擊者不僅可以檢索敏感日志和實(shí)際的純文本聊天消息,還可以使用查詢直接從服務(wù)器竊取純文本密碼和本地文件以及專有信息。
Wiz已經(jīng)將這個(gè)安全漏洞報(bào)告給了DeepSeek團(tuán)隊(duì)。
一些人擔(dān)心,DeepSeek這樣的小團(tuán)隊(duì)或許還沒有做好去服務(wù)全球量級用戶的準(zhǔn)備。雖然用戶和開發(fā)者未必會因此放棄使用DeepSeek,但可能會觸發(fā)安全監(jiān)管。
Zach Richardson
TINY FISH AI負(fù)責(zé)人
前META PYTORCH機(jī)器學(xué)習(xí)工程經(jīng)理:
(DeepSeek在全球)的采用情況已經(jīng)非常廣泛。我們并沒有看到來自國際的AI模型安全問題對用戶習(xí)慣產(chǎn)生顯著影響,但安全問題可能會對政府監(jiān)管產(chǎn)生影響。我認(rèn)為國際上更多的安全問題是從監(jiān)管角度出現(xiàn)的。
接下來我們說說DeepSeek對全球AI產(chǎn)業(yè)的影響,特別是對主流開源與閉源模型的沖擊。
03 對開閉源模型的影響
DeepSeek的技術(shù)創(chuàng)新獲業(yè)界認(rèn)可,這也給不論開源閉源的硅谷傳統(tǒng)頭部大模型公司帶來了壓力,包括OpenAI、Anthropic、Meta、Mistral。
我們先來說閉源公司們的反應(yīng)。
Chapter 3.1 OpenAI
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
這對OpenAI和Anthropic來說無疑是當(dāng)頭一棒:DeepSeek表明AI領(lǐng)域并不存在真正的護(hù)城河,Anthropic和OpenAI將很難證明自己的估值和定價(jià)合理。
DeepSeek對閉源模型直接的沖擊就是價(jià)格——高性價(jià)比的開源替代方案必將驅(qū)動(dòng)開發(fā)者和公司們的遷移。
根據(jù)Sensor Tower的數(shù)據(jù),2025年1月26日DeepSeek登上美國免費(fèi)應(yīng)用榜單第一名,之后在全球范圍內(nèi)持續(xù)火爆,在印度等140個(gè)全球市場中的移動(dòng)應(yīng)用下載量排行榜上都位居榜首。
數(shù)據(jù)顯示,DeepSeek已經(jīng)達(dá)到了ChatGPT日活用戶的23%,并且已經(jīng)超過了ChatGPT的每日下載量。
這對OpenAI來說,直接的打擊就是技術(shù)領(lǐng)先帶來的壟斷溢價(jià)將面臨縮水。
Dylan Patel
SemiAnalysis創(chuàng)始人:
OpenAI的模型推理產(chǎn)生的毛利率超過75%,也就意味著成本差距在4到5倍之間。OpenAI之所以能賺取驚人的利潤,就是因?yàn)樗俏ㄒ粨碛羞@種能力的公司。
Zhou Nan
QUALCOMM VENTURES投資總監(jiān):
DeepSeek出現(xiàn)后,OpenAI需要考慮自己的商業(yè)模式要不要有所調(diào)整:第一是否開源、第二商業(yè)模式要如何調(diào)整,定價(jià)要如何調(diào)整?比如說GPT的Pro版本之前收費(fèi) 200美元,是不是要考慮降價(jià)。
DeepSeek火出圈之后,Sam Altman在X上反擊稱:我們顯然會提供更好的模型。
很快,在1月31日,OpenAI發(fā)布推理模型o3-mini,并且首次對免費(fèi)用戶提供推理模型。
o3-mini定價(jià)標(biāo)準(zhǔn)為輸入1.10美元/百萬token、輸出4.40美元/百萬token,雖仍高于DeepSeek的定價(jià),但較前代o1-mini已實(shí)現(xiàn)63%的降幅。
硅谷業(yè)界普遍認(rèn)為DeepSeek R1的性能比o1要稍差一些,而o3作為o1的升級版,在性能上是要優(yōu)于R1的。
所以,OpenAI的溢價(jià)雖然被DeepSeek帶來的壓力打下來了一些,但依然有高利潤率在。隨著競爭的繼續(xù),價(jià)格也可能進(jìn)一步下降。這會非常利好整個(gè)AI的創(chuàng)業(yè)生態(tài)、開發(fā)者社區(qū)和應(yīng)用公司們。
2月3日OpenAI也發(fā)布了另一個(gè)新模型Deep Research,號稱能夠像人類分析師一樣,對復(fù)雜的任務(wù)進(jìn)行逐步分解,并在互聯(lián)網(wǎng)上進(jìn)行多輪的信息搜索與驗(yàn)證。
OpenAI還與DeepSeek-R1進(jìn)行了對比:Deep Research在Humanity's Last Exam測試中,深度研究所使用的模型在專家級問題上達(dá)到了26.6%的準(zhǔn)確率,創(chuàng)下新高;而DeepSeek R1模型的準(zhǔn)確率是9.4%。
OpenAI降價(jià)、展示優(yōu)越性這兩輪強(qiáng)硬反擊背后,是Sam Altman與OpenAI所面臨的壓力。
雖然業(yè)界對OpenAI的閉源策略各種諷刺,稱之為“Closed AI”,但要保持前沿科技的技術(shù)龍頭地位是不易的——基礎(chǔ)研究和探索成本需要非常多的資金,探索者需要砸錢去探路,而后來的追趕者站在巨人肩膀上進(jìn)行路線的優(yōu)化則能省很多錢。
在硅谷,很多人把OpenAI和DeepSeek類比為“專利藥”和“仿制藥”的另一原因是:雖然仿制藥用低廉的價(jià)格造福了全人類,但專利藥背后的多年研發(fā)成本卻是大藥企去承擔(dān)的。
而OpenAI雖然推理側(cè)的利潤很高,在訓(xùn)練側(cè)卻是極其燒錢的。如果推理側(cè)的利潤無法承擔(dān)前面訓(xùn)練側(cè)燒的錢,那么OpenAI的商業(yè)模式也就失敗了。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
可以想象Meta、Google的資源浪費(fèi)肯定是遠(yuǎn)高于DeepSeek的:它們有大量的各種各樣政治在內(nèi)部。而且他們也不是只有一百個(gè)人,而是上千個(gè)人在搞各種各樣的花活,所以很難去直接衡量真正的成本是多少。拋開這一切不談,人力成本可能遠(yuǎn)高于這些算力成本。
Dylan Patel
SemiAnalysis創(chuàng)始人:
他們(OpenAI)顯然是在虧損:他們在訓(xùn)練上投入了大量資金。雖然推理本身的利潤率很高,但并不能彌補(bǔ)他們在其他方面的開支,所以他們確實(shí)需要這筆資金。
這也許解釋了為什么OpenAI在連續(xù)兩場發(fā)布會之后立馬開啟了新一輪融資:有消息爆出新一輪融資中OpenAI希望籌資400億美元,將公司估值推到3000億美元的量級。
即使OpenAI已經(jīng)得到了軟銀孫正義投資數(shù)百億美元的承諾,但在這個(gè)時(shí)間點(diǎn)融資,Sam Altman毫無疑問會面對投資人的各種質(zhì)疑。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
我覺得有兩個(gè)事情:一個(gè)是OpenAI如何應(yīng)對便宜模型的出現(xiàn)?第二是心態(tài)方面的,因?yàn)樗薪鹑诘默F(xiàn)象都是跟心理學(xué)有關(guān),如果大家覺得他融不到錢,那這輪融資就會自我拖延,大家越覺得他融不到錢就越融不到錢。DeepSeek對OpenAI融資的話相對來講是有負(fù)面影響,長期來講(OpenAI融資)本來也是一個(gè)挺難的事。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
有趣的是,OpenAI和Anthropic的股票基本上已經(jīng)停止在二級市場上的交易,這兩家公司在DeepSeek之前還是最炙手可熱的,DeepSeek推出后沒人再購買OpenAI或Anthropic,沒人買也沒人賣。
而且,DeepSeek讓人開始質(zhì)疑:真的需要那么多資金嗎?即使我投入那么多錢,你們的模式能有多可持續(xù)?
Anthropic和 OpenAI一直在向投資者講述通過大量資金投入模型訓(xùn)練,他們能夠建立起對其他公司的巨大護(hù)城河;但事實(shí)證明,這并不像人們預(yù)期的那樣穩(wěn)固。
Chapter 3.2 Anthropic
對于Anthropic來說,DeepSeek帶來的打擊可能更嚴(yán)重。
我們在硅谷101之前《AI信仰之戰(zhàn)》這期內(nèi)容中提過,Anthropic在對企業(yè)端和對開發(fā)者端的API上是非常有優(yōu)勢的,但在消費(fèi)者端比ChatGPT差很多。所以DeepSeek的API價(jià)格直接會對Anthropic帶來打擊。
而且Anthropic目前并沒有任何的推理模型,所以完全被OpenAI和DeepSeek前后夾擊。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
我認(rèn)為對Anthropic來說,DeepSeek的出現(xiàn)是個(gè)重大打擊。他們本月早些時(shí)候剛以600億美元的估值融資了30億美元,而DeepSeek推出后他們肯定還需要籌集更多資金來繼續(xù)訓(xùn)練模型。
這也許解釋了為什么Anthropic的創(chuàng)始人Dario Amodei,與Sam Altman以及Meta的Yann Lecun等一眾科技領(lǐng)袖們的“歡迎競爭”、承認(rèn)DeepSeek的技術(shù)創(chuàng)新表態(tài)非常不一樣,在長文中對DeepSeek相當(dāng)不客氣,甚至要求美國加強(qiáng)對算力的“出口管制”。
但毫無疑問,DeepSeek將對Anthropic旗下Claude等模型的更新帶來更大的壓力,來保證閉源模型的領(lǐng)先性。
John Yue
INFERENCE.AI創(chuàng)始人兼CEO:
這些閉源的模型有可能是一直領(lǐng)先的,它要是閉源還不如開源,可能就沒有意義。但它(相比開源)應(yīng)該是有管理上的這個(gè)優(yōu)勢。如果閉源還不如開源,我也不知道這公司在干什么,還不如免費(fèi)。
接下來,再說說DeepSeek對開源模型和社區(qū)的影響。
Chapter 3.3 Meta
雖然很多人說DeepSeek代表著開源模型的一次大勝利,但是在開源模型自己的競爭格局中,它也給Meta等行業(yè)領(lǐng)頭羊帶來了非常大的壓力。
根據(jù)The Information的報(bào)道,DeepSeek R1發(fā)布之后Meta就立刻進(jìn)入了緊急狀態(tài),成立了四個(gè)“War Rooms”作戰(zhàn)室——Meta馬上要發(fā)布Llama 4開源模型,如果Llama 4落后于DeepSeek,公司作為“開源模型的引領(lǐng)者”的地位將受到很大威脅。
Meta最初選擇以開源的路線來加入大模型戰(zhàn)局,而非像谷歌、OpenAI和Anthropic選擇閉源,是想?yún)⒄债?dāng)年谷歌開源安卓系統(tǒng)的模式:不從系統(tǒng)本身賺錢,而是等生態(tài)發(fā)展起來之后從廣告和Google Play等應(yīng)用上賺錢。
如今也是一樣:Meta不指望開源的Llama賺錢,但希望Llama是最領(lǐng)先的開源大模型,以便之后從生態(tài)和應(yīng)用上賺錢。
所以,Meta即使不是最強(qiáng)的開源模型也絕不能在能力上掉隊(duì),這也是為什么目前Meta必須進(jìn)入“War Rooms”狀態(tài)。
The Information的報(bào)道也指出,此前Llama在跟OpenAI等閉源模型競爭的時(shí)候已經(jīng)有價(jià)格上的劣勢了:雖然Meta的模型是免費(fèi)的,但實(shí)際運(yùn)行起來會比OpenAI的模型更昂貴。
部分原因是OpenAI 可以通過批量處理客戶的數(shù)百萬個(gè)Queries(查詢)來降低價(jià)格,而Llama的使用者卻沒有辦法通過這種方式來獲得降價(jià)。
如今DeepSeek的價(jià)格更低,將給Meta帶來進(jìn)一步的價(jià)格壓力。好消息是,Meta還沒發(fā)Llama4。
開源的美妙之處在于,它不但帶來了競爭,也帶來了互相學(xué)習(xí)、反饋和進(jìn)步的機(jī)會。業(yè)內(nèi)人士對我們表示,這次DeepSeek引起非常強(qiáng)烈反響的另外一個(gè)原因,是它開源得比Meta要更徹底更透明。
楊成
前SCALE AI工程高管
現(xiàn)具身智能創(chuàng)業(yè)者:
我覺得從兩個(gè)方向上對比:Meta開源的時(shí)候,其實(shí)是落后于業(yè)界的。比如Meta采取了dense model(稠密模型),而且它的訓(xùn)練效率也比較低,它當(dāng)時(shí)的表現(xiàn)離最好的模型也有些差距。
Meta開源當(dāng)中的各種限制,我個(gè)人覺得那些更像是大公司病:在一個(gè)巨大的公司當(dāng)中,各個(gè)部門扯皮后得出來的平衡點(diǎn)。
DeepSeek這次開源的是一個(gè)業(yè)界領(lǐng)先的模型,同時(shí)technical report(技術(shù)報(bào)告)的詳細(xì)程度遠(yuǎn)遠(yuǎn)超OpenAI或Anthropic,所以業(yè)界其實(shí)是非常開心的。
當(dāng)然,DeepSeek的代碼和訓(xùn)練數(shù)據(jù)集沒有開源,但因?yàn)樗穷I(lǐng)先的模型,同時(shí)technical report的細(xì)節(jié)也比之前其他領(lǐng)先模型多,所以業(yè)界對于DeepSeek的開源是非常滿意的。
我們也拭目以待Meta計(jì)劃在第一季度發(fā)布的Llama4表現(xiàn)如何。
Chapter 3.4 Mistral
在硅谷,非常多的AI從業(yè)人士和科技領(lǐng)袖都同意:DeepSeek這次的震撼代表了開源的勝利,但同時(shí)很多人也強(qiáng)調(diào)開源模型要保持領(lǐng)先,要持續(xù)的不掉隊(duì)、不斷推出能與最好閉源模型比肩的產(chǎn)品還是非常難的,在資源、人才、商業(yè)變現(xiàn)上都有著很大的挑戰(zhàn)。
比如法國AI開源模型公司Mistral,它一度以70億參數(shù)的小模型轟動(dòng)業(yè)界,也曾大力推行DeepSeek技術(shù)創(chuàng)新中的MoE(混合專家模型)。但近一年時(shí)間,Mistral在技術(shù)上慢慢掉隊(duì),公司也面臨商業(yè)化的難題,甚至被傳需要被收購。
Jenny Xiao
前OpenAI研究員
LEONIS CAPITAL合伙人:
我對開源公司通常持較為懷疑的態(tài)度:因?yàn)樗鼈儽仨氄业阶儸F(xiàn)的方式,無論是通過托管服務(wù)、提供高級功能、還是開放對最新模型的訪問,最終都得以某種方式盈利。
一個(gè)典型的例子就是Mistral:這家歐洲AI巨頭被認(rèn)為是歐洲最優(yōu)秀的AI公司,最初聲稱自己是完全開源的,但現(xiàn)在Mistral最好的模型大多已經(jīng)不再開源,甚至連研究的很多細(xì)節(jié)都不再公開。
我認(rèn)為開源公司想維持盈利,走向這種模式幾乎是必然的。不幸的是,DeepSeek可能也會走上這條路,以確保自身的可持續(xù)發(fā)展。
Dylan Patel
SemiAnalysis創(chuàng)始人:
DeepSeek并沒有足夠的能力來提供模型服務(wù),因?yàn)樗麄円呀?jīng)停止了(海外)新用戶注冊。對(全球大多數(shù)人來說,現(xiàn)在幾乎無法使用它。
這是因?yàn)橛脩粜枨筮^于龐大,而他們沒有足夠的GPU來支撐模型的運(yùn)行。我們的研究數(shù)據(jù)認(rèn)為,DeepSeek擁有5萬塊GPU,其中一部分用于研究,另一部分用于對沖基金。他們的GPU數(shù)量和計(jì)算能力遠(yuǎn)遠(yuǎn)不足以支撐大規(guī)模模型服務(wù)。
所以DeepSeek的成本確實(shí)更低,而OpenAI賺錢的原因之一是其龐大的盈利能力,但DeepSeek是否通過API盈利目前還不清楚,我個(gè)人認(rèn)為可能并沒有。
對于DeepSeek來說,因?yàn)檫€有幻方這樣的母公司的資金作為撐腰,商業(yè)化也許并不是他們的首要任務(wù),或許會選擇融資的模式。
DeepSeek之前也嘗試過融資,只是不順利,我們會在之后幻方DeepSeek成長史的章節(jié)提到。
所以在資金和人才都不是問題的情況下,DeepSeek接下來的關(guān)鍵將是能否在開源路徑中保持領(lǐng)先、從開源社區(qū)中得到技術(shù)的反饋和反哺來進(jìn)一步提升創(chuàng)新。
04 對算力的影響
DeepSeek對英偉達(dá)的市場情緒沖擊在1月27日是最明顯的,但之后跌幅已經(jīng)止住了,并且在過去的幾天股價(jià)開始緩慢回升。
我們聽到市面上有兩種聲音:
1. DeepSeek帶來了模型訓(xùn)練和推理的新范式,以后不需要這么大量砸錢去買英偉達(dá)最前沿的GPU芯片了,所以算力市場的故事已經(jīng)崩塌。
2. DeepSeek能讓整個(gè)生態(tài)的算力成本都得到進(jìn)一步降低,所以會有更多的玩家入局,會有更多的應(yīng)用生態(tài)崛起,這就意味著更多的算力需求,GPU算力市場其實(shí)更大了,反倒是利好英偉達(dá)的。
目前華爾街和硅谷的一二級投資市場對第二種邏輯達(dá)成了共識,這也是為什么英偉達(dá)股價(jià)止跌在這個(gè)價(jià)位:截至我們寫稿的時(shí)候處于2024年10月的股價(jià)水平,依然處于近年的高點(diǎn)。
Zhou Nan
QUALCOMM VENTURES投資總監(jiān):
只是說模型具體的訓(xùn)練成本會降低,但是因?yàn)槟P陀?xùn)練成本降低了、它又是開源的,這會釋放整個(gè)生態(tài)對模型的應(yīng)用,包括新的開源社區(qū)開發(fā)者也會去復(fù)現(xiàn)這個(gè)模型。所以整體上來講,降低的算力成本反而會刺激下一代模型的訓(xùn)練、開源模型的訓(xùn)練和整個(gè)應(yīng)用場景,這些都會迎來大爆發(fā)。
現(xiàn)實(shí)情況是,雖然DeepSeek推高了整體算力需求按理說應(yīng)該利好英偉達(dá)股價(jià),27號大跌之后這一周英偉達(dá)的股價(jià)并未太過反彈。這是因?yàn)镈eepSeek的模型創(chuàng)新造成了目前尚未驗(yàn)證、沒有達(dá)成共識的新問題:DeepSeek能擊垮英偉達(dá)最強(qiáng)的護(hù)城河CUDA嗎?
John Yue
INFERENCE.AI創(chuàng)始人兼CEO:
英偉達(dá)其實(shí)是有兩個(gè)最大的壁壘,InfiniBand(芯片互聯(lián))和CUDA(調(diào)用GPU的系統(tǒng))。它跟AMD這些其他芯片公司其實(shí)已經(jīng)不是在一個(gè)層面在競爭的:其他人都在爭單張卡的性能,但是英偉達(dá)爭的是互聯(lián)的技術(shù)、軟件調(diào)用、Ecosystem的維持。所以英偉達(dá)真正的壁壘是這兩個(gè)。
最近很多媒體和文章以“DeepSeek已經(jīng)繞過CUDA”為標(biāo)題,再度引發(fā)市場對英偉達(dá)GPU需求的恐慌和對英偉達(dá)護(hù)城河是否堅(jiān)固的質(zhì)疑。
我們采訪的技術(shù)派嘉賓看法挺一致:這類新聞標(biāo)題是不準(zhǔn)確的,因?yàn)镈eepSeek并沒有繞過CUDA,只不過英偉達(dá)的護(hù)城河確實(shí)因?yàn)镈eepSeek松了那么一點(diǎn)。
這類新聞的結(jié)論是:DeepSeek的創(chuàng)新可以:
1. 直接在英偉達(dá)GPU的低級匯編語言PTX(Parallel Thread Execution)上進(jìn)行優(yōu)化;
2. 同時(shí)通過對FP8計(jì)算和存儲的支持,讓DeepSeek團(tuán)隊(duì)實(shí)現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。
結(jié)論:這意味著業(yè)界之后可以繞過CUDA生態(tài),用其它GPU也能實(shí)現(xiàn)高效訓(xùn)練目的,英偉達(dá)的護(hù)城河不存在了。
我們的嘉賓就這兩個(gè)說法進(jìn)行了一些糾正和補(bǔ)充,主要觀點(diǎn)有三個(gè)。
第一:DeepSeek沒有“繞過”CUDA。
John Yue
INFERENCE.AI創(chuàng)始人兼CEO:
它并沒有完全繞過CUDA生態(tài)系統(tǒng)。它可以直接去調(diào)用CUDA底下的PTX(指令集上再高一層的指令集)并且在這一層直接進(jìn)行優(yōu)化。但是這也是挺大的一個(gè)工程,并不是說任何一個(gè)小公司都有能力去做這件事情。
英偉達(dá)的護(hù)城河是CUDA生態(tài),而不是單單CUDA本身;而PTX是CUDA生態(tài)的一環(huán),用于連接CUDA高級語言代碼和GPU底層硬件指令,仍然是英偉達(dá)GPU架構(gòu)中的技術(shù)。所以DeepSeek“繞過CUDA”這個(gè)表述在很多人看來是不準(zhǔn)確的。
第二:DeepSeek可以基于PTX優(yōu)化英偉達(dá)GPU,是不是說明DeepSeek也可以優(yōu)化其它GPU和芯片呢?
這一點(diǎn)是很可能的,所以AMD迅速宣布將新的DeepSeek-V3模型集成到自己的Instinct MI300X GPU上。
但技術(shù)從業(yè)者告訴我們,DeepSeek團(tuán)隊(duì)可以基于PTX進(jìn)行優(yōu)化,不意味著其它團(tuán)隊(duì)也這樣的能力和動(dòng)力。因?yàn)榫帉慞TX代碼的做法非常復(fù)雜且難以維護(hù),對技術(shù)人員要求極高,也很難移植到不同型號的GPU。
所以第二個(gè)觀點(diǎn)是:目前來看業(yè)界沒有動(dòng)力大規(guī)模改變算力使用的范式。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
一旦CUDA不存在、有一個(gè)標(biāo)準(zhǔn)化的開源生態(tài)出來、AMD和英偉達(dá)GPU沒有什么區(qū)別,那就對英偉達(dá)比較危險(xiǎn)。但是我覺得短期內(nèi)要挑戰(zhàn)英偉達(dá)還是很難,因?yàn)楹茈y想象現(xiàn)在那么多數(shù)據(jù)中心全部遷移離開CUDA,沒有人會干這種事情。
DeepSeek可能有自己的一套基礎(chǔ)設(shè)施(Infra)并且做了這樣的嘗試,但我不認(rèn)為AWS、Azure、Google Cloud會說:“好,今天我們要把所有東西都遷移出英偉達(dá),不再支持CUDA了,PyTorch開發(fā)者們,你們自己去實(shí)現(xiàn)新的方式吧?!边@個(gè)是不太可能發(fā)生的,對開發(fā)者來說,這樣的變化過于不友好。
John Yue
INFERENCE.AI創(chuàng)始人兼CEO:
短期來說我覺得對AMD是利好,因?yàn)锳MD已經(jīng)宣布把DeepSeek給弄過去了。但是長期來看也不好說,有可能還是利好英偉達(dá)。
因?yàn)檫@畢竟只是DeepSeek一個(gè)模型,而CUDA厲害的地方在于它是一個(gè)通用的GPU調(diào)用的軟件系統(tǒng),什么軟件都可以用CUDA;但DeepSeek只支持DeepSeek,有別的模型還要再重新適配一次。
那就是在賭以后DeepSeek就是黃金標(biāo)配。如果所有的初創(chuàng)公司都在DeepSeek上建,那對已經(jīng)移植了DeepSeek的AMD挺好的。但如果后面不是DeepSeek占主導(dǎo),那別的模型又要重新適配,那挺麻煩的,還不如用CUDA。
前面我們提到,DeepSeek通過對FP8計(jì)算和存儲的支持,實(shí)現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。這是否意味著,很多模型的訓(xùn)練和推理不一定要去買英偉達(dá)最好的芯片?
像Groq等更便宜的ASIC專項(xiàng)芯片,還有谷歌TPU、亞馬遜自己的自研芯片,是不是可以有更高效的訓(xùn)練和推理用途?這個(gè)問題可能比前面我們討論P(yáng)TX是否繞過CUDA更為關(guān)鍵。
谷歌的財(cái)報(bào)顯示公司預(yù)計(jì)2025年資本支出將增加到750億美元,遠(yuǎn)高于市場此前預(yù)期的580億美元,其中很大一部分預(yù)計(jì)是在自研芯片TPU上。
博通Broadcom作為谷歌TPU的設(shè)計(jì)方也股價(jià)大漲;Meta等科技巨頭也都紛紛制定計(jì)劃定制ASIC芯片,減少特別是今后推理側(cè)對英偉達(dá)的依賴。
目前我們采訪的嘉賓認(rèn)為:這會沖擊英偉達(dá)的溢價(jià),但不會擊垮英偉達(dá)的壁壘和護(hù)城河。
Zhou Nan
QUALCOMM VENTURES投資總監(jiān):
DeepSeek因?yàn)樗昧薋P8的策略,減少了對CUDA的深度綁定,這肯定會給AMD、Google TPU、甚至國內(nèi)的華為帶來了很大的機(jī)會。
老黃是一個(gè)非常具有戰(zhàn)略前瞻性的人:他一定會在CUDA生態(tài)系統(tǒng)里面也去優(yōu)化推理層面,不管是性能還是價(jià)格,這個(gè)會對英偉達(dá)毛利率帶來很大的沖擊。
英偉達(dá)現(xiàn)在毛利率將近90%以上,所以它會迫使英偉達(dá)降價(jià)。但因?yàn)榈腃UDA系統(tǒng)和一系列的生態(tài)的支持還是比其他芯片公司好的,英偉達(dá)降價(jià)以后可能也會從某種程度上,把市場占有率再拿回來一些。
John Yue
INFERENCE.AI創(chuàng)始人兼CEO:
我沒覺得DeepSeek動(dòng)搖了英偉達(dá)的這兩個(gè)壁壘,只是他對溢價(jià)有一些沖擊。有可能收不了那么高的價(jià)格,但是也并不代表就是其他的競品能突然就進(jìn)來。
比如有個(gè)墻,大家以前都覺得翻不過這個(gè)墻,現(xiàn)在有個(gè)人跳過去了說,“你看我可以跳過去,你們也有可能跳過來”,但是這個(gè)墻沒有變低。不是說就是他跳過去了,別人現(xiàn)在也都能跳過去。
這就是他為什么沖擊了溢價(jià),但是沒有打倒壁壘,就這個(gè)墻沒有變低。
所以,DeepSeek沒有繞過CUDA、目前大規(guī)模棄用英偉達(dá)芯片的恐慌也不會發(fā)生,但新范式確實(shí)給英偉達(dá)的壁壘上鑿了一道口子。
得益于技術(shù)護(hù)城河,此前英偉達(dá)GPU和OpenAI一樣利潤率和溢價(jià)很高。然而接下來要保住自己的市場蛋糕份額勢必會降價(jià)。雖然這對業(yè)界來說都是好消息,但華爾街和硅谷也都在觀望其能否保住市場份額。
算力成本降低會利好應(yīng)用側(cè),接下來由硅谷101特約研究員王可倚(Sophie),聊聊應(yīng)用層和創(chuàng)業(yè)生態(tài)的影響。
05 對開發(fā)應(yīng)用側(cè)的影響
業(yè)界嘉賓中很多人認(rèn)為,DeepSeek取得的幾項(xiàng)突破上,對應(yīng)用層面短期影響最大的是模型推理成本的跳水;而R1在邏輯推理方面展現(xiàn)出的潛力則讓業(yè)界看到了未來幾年內(nèi),軟件行業(yè)可能會遭遇的顛覆性變革。
Chapter 5.1 AI屆拼多多
DeepSeek作為“AI屆拼多多”發(fā)布之后引爆了一場業(yè)內(nèi)價(jià)格戰(zhàn):DeepSeek V2公布后,包括字節(jié)在內(nèi)的大廠不惜做“賠本買賣”,把API價(jià)格降到業(yè)界估計(jì)的成本線下“舍命陪君子”。
而對于使用模型的AI應(yīng)用開發(fā)者而言,這樣的價(jià)格戰(zhàn)解鎖了全新的可能性。
對于一些開發(fā)者來說,DeepSeek是“錦上添花”;對于在GPT以后、DeepSeek之前商業(yè)化的不少2B AI應(yīng)用而言,這一波降價(jià)引發(fā)的是利潤的量變而非質(zhì)變。
如果被代替的是白領(lǐng)工,無論律師、醫(yī)生、碼農(nóng)還是金融分析師,再貴的AI也貴不過人,所以應(yīng)用者就像F1賽車手不惜代價(jià)追求著模型的極致表現(xiàn)。這種情況下,降價(jià)的直接影響是:同樣的生意利潤率大幅提高。
同時(shí),DeepSeek對另外一些場景則是“雪中送碳”,那些之前需要燒錢補(bǔ)貼、否則難以推廣的使用場景,如今因?yàn)榻祪r(jià)有利可圖,可能迅速普及。
比如陪伴型AI,對于聊天機(jī)器人類的創(chuàng)業(yè)公司來說,用戶的“熱愛”是昂貴的。
Whats The Big Data在2024年5月發(fā)布的一份報(bào)告顯示,用戶在行業(yè)龍頭CharacterAI平臺上的單次使用時(shí)長平均約為兩小時(shí),是ChatGPT的17倍。
伴隨而來的是相應(yīng)大幅攀升的模型使用成本:很多該類公司為了吸引用戶而選擇免費(fèi),不得不靠限制使用時(shí)長等方式來控制開銷,同時(shí)大量資金補(bǔ)貼。而現(xiàn)在DeepSeek徹底改寫了陪伴型AI產(chǎn)品的成本結(jié)構(gòu)。
曲曉音
HEYBOSS.XYZ創(chuàng)始人
RUN THE WORLD創(chuàng)始人(已被收購):
這對于商業(yè)模式來講的變革是巨大的,可能以前做不了的事情,現(xiàn)在就是好生意了。
另一個(gè)有利的領(lǐng)域是AI agent(智能體),這是臭名昭著的“算力黑洞”。
由于完成一個(gè)任務(wù)需要多步模型調(diào)用、反復(fù)自我修正與驗(yàn)證、甚至多個(gè)代理相互配合,對API調(diào)用的需求指數(shù)級上升,如今在成本和響應(yīng)速度上的進(jìn)步也格外顯著。
大降價(jià)也引發(fā)了從0到1新的業(yè)態(tài)可能。業(yè)內(nèi)人士普遍認(rèn)為,由于DeepSeek使得端部署AI小模型能力突飛猛進(jìn),我們將迎來設(shè)備端AI應(yīng)用、尤其是2C應(yīng)用的百花齊放。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
因?yàn)樗M(fèi)用非常低,再加上它可運(yùn)行的設(shè)備基本上是通用的,所以在toC的領(lǐng)域可能會有一個(gè)大爆發(fā)。
曲曉音
HEYBOSS.XYZ創(chuàng)始人
RUN THE WORLD創(chuàng)始人(已被收購):
兒童助玩機(jī)器人、幫你記會議筆記的東西等,如果能在端上的話成本就非常非常低了。
Larry作為投資人尤其看好設(shè)備端AI 2C應(yīng)用中娛樂類或虛擬人助手類的應(yīng)用。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
一是娛樂的,再是人與人之間交互可以生成兩個(gè)數(shù)字化身:不管是給客服打電話還是朋友之間的交流,可能會有新的模式。
而端部AI應(yīng)用的一大特征是,推理成本對于應(yīng)用開發(fā)者幾乎為0,因?yàn)橛?jì)算資源來自用戶的設(shè)備,不再是云服務(wù)器,這一點(diǎn)很有可能會顛覆SaaS時(shí)代“硬件+SaaS訂閱”的經(jīng)典商業(yè)邏輯。
硬件+SaaS的經(jīng)典邏輯是“電動(dòng)牙刷柄賠錢,牙刷頭賺錢”:硬件以接近成本甚至低于成本的價(jià)格出售,同時(shí)綁定獨(dú)家軟件訂閱服務(wù),從高利潤率的軟件訂閱上賺回硬件補(bǔ)貼,并實(shí)現(xiàn)持續(xù)、穩(wěn)定的現(xiàn)金流收益。
然而當(dāng)端部AI服務(wù)的邊際成本為0,競爭會使得訂閱服務(wù)很難實(shí)質(zhì)性收費(fèi),因?yàn)椤坝肋h(yuǎn)有對手比你更便宜?!?/p>
曲曉音
HEYBOSS.XYZ創(chuàng)始人
RUN THE WORLD創(chuàng)始人(已被收購):
那就會有人卷你了,我不收錢對吧,那可能確實(shí)你的利潤率會降低。
所有沿用”牙刷頭補(bǔ)貼牙刷柄“思路的SaaS公司在被DeepSeek拉開序幕的端AI時(shí)代需要重新審視了。
關(guān)于端部AI的跨越是否也會帶來物聯(lián)網(wǎng)的春天,業(yè)界目前還難以下結(jié)論:物理世界的規(guī)則限制了硬件發(fā)展的速度,不會像數(shù)據(jù)增長與純數(shù)據(jù)應(yīng)用發(fā)展這么快。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
硬件的發(fā)展相對來講是個(gè)比較線性的增長;數(shù)據(jù)方面的增長跟數(shù)據(jù)應(yīng)用和處理方面的增長總是個(gè)指數(shù)型的增長。所以我覺得是不可比的。
對于物聯(lián)網(wǎng)的布局,我們硅谷101在之前《孫正義翻身之戰(zhàn)》中也提到過,孫正義之前也下手太早、栽過一回,所以現(xiàn)在上牌桌玩AI+物聯(lián)網(wǎng)是不是好的時(shí)點(diǎn)依然不好說。
Chapter 5.2 AI創(chuàng)業(yè)生態(tài)
在和投資人的聊天中,他們認(rèn)為DeepSeek之后由于前沿大模型效果趨同、進(jìn)入效率競爭階段,資本市場恐怕會重新評估單純追求面面俱到、沒有針對性行業(yè)或使用場景的“橫向”AI創(chuàng)業(yè)公司的前景和估值。
這其中不乏有著名研究員、技術(shù)大神創(chuàng)立、風(fēng)投圈曾高價(jià)追捧過的明星公司。有投資人認(rèn)為越是融資多的“名人創(chuàng)業(yè)”,相對越容易陷入“高開低走”、“殺雞用牛刀”的尷尬境地。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
前一段時(shí)間在主賽道上融資的一些初創(chuàng)企業(yè)會有很大的問題。我覺得從投資人角度來講,會擔(dān)心他融這么多錢,但他所做的事實(shí)際上別人可能以十分之一的價(jià)錢可以做。從工程師上講,也用不著這么優(yōu)秀的頂級的工程師。
所以在AI被商品化的時(shí)代,成為“平臺”、搭建生態(tài)系統(tǒng)或許才是橫向AI企業(yè)的一條出路。
與之相對照的是,專注于一個(gè)細(xì)分領(lǐng)域或特定使用場景的縱向AI企業(yè),則被認(rèn)為是更容易建立差異化競爭優(yōu)勢,前提是它們用AI提供的解決方案必須相對于從前有質(zhì)的飛躍。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
任何一個(gè)人如果找我們來投資,我說你這個(gè)事是不是比以前要好10倍、100倍?不管你再狹窄的一個(gè)事情都有意思。
而DeepSeek的效率和邏輯推理能力突破讓更多這樣十倍、百倍的進(jìn)步成為可能。同時(shí),細(xì)分領(lǐng)域累積的新數(shù)據(jù)、隨之而來的新智能才是真正的護(hù)城河。
總之,投資人和開發(fā)者似乎在達(dá)成一種共識:深根細(xì)分領(lǐng)域的AI模型與應(yīng)用會超越最厲害的通用大模型,專才勝于通才、“縱”強(qiáng)于“橫”。
經(jīng)歷這一波變革,AI行業(yè)正在整體回歸理性化:少了玩命融資、囤卡和挖人才的狂熱,多了和具體需求緊密結(jié)合、腳踏實(shí)地的漸進(jìn)式創(chuàng)新,一個(gè)發(fā)燒的領(lǐng)域在逐漸恢復(fù)健康。
Bill Zhu
POKEE AI創(chuàng)始人兼CEO
前META AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人:
可能不會出現(xiàn)像過往那樣如此瘋狂的估值,這些公司未來可能會像早期互聯(lián)網(wǎng)融資慢慢發(fā)展,形成更良性的公司發(fā)展格局?!拔蚁热?0億看能不能砸出水花”這種情況很難再發(fā)生了。
這不是說AI下半場就沒有那么激動(dòng)人心了,恰恰相反,對AI創(chuàng)業(yè)者來說下場的黃金時(shí)機(jī)很可能才剛剛開始。
Larry Li
AMINO CAPITAL創(chuàng)始人/管理合伙人:
我覺得好事在后面,就跟互聯(lián)網(wǎng)時(shí)代一樣,像Google,Amazon都是后來慢慢起來的企業(yè)。這是剛剛開始,要是說AI這個(gè)大浪的話,今天就是零。
DeepSeek就像一條鯰魚,攪亂了大模型行業(yè)的魚塘:開發(fā)者們獲益匪淺,但未來大模型競爭格局卻依舊柳暗花明。
AI應(yīng)用對基座模型的切換成本、云廠商在搭載模型選擇上的縱橫捭闔、甚至AI應(yīng)用”腳踏幾只船“、根據(jù)具體任務(wù)動(dòng)態(tài)選擇模型的策略,都讓這個(gè)行業(yè)很難輕易分出勝負(fù)。
最后,DeepSeek R1在邏輯推理方面的過人之處,讓不少人預(yù)測下一代R2很可能會實(shí)現(xiàn)AI編程能力的飛躍。無論是對軟件開發(fā)的工作流、關(guān)鍵決策,還是工程師的職業(yè)生涯,甚至人們的生活方式可能都會帶來深遠(yuǎn)的改變,而這一切可能都會比人們原本預(yù)料的來得更快。
06 硅谷“錯(cuò)位的優(yōu)越感”
我們也聯(lián)系上了幻方的創(chuàng)始人和管理團(tuán)隊(duì),但很遺憾他們在這個(gè)時(shí)間點(diǎn)拒絕了我們的采訪邀約,希望以后有機(jī)會可以直接和梁文鋒與DeepSeek團(tuán)隊(duì)對話和采訪。
DeepSeek帶來的創(chuàng)新,無論是技術(shù)創(chuàng)新還是工程創(chuàng)新,在技術(shù)上都對硅谷帶來了非常多的啟發(fā)和討論。
其中一位嘉賓說,在硅谷的AI發(fā)展路線在DeepSeek之前都開始非常趨同了:大家都做的一樣的事情,用的一樣的技術(shù),采取一樣的路線。但DeepSeek這次帶來的耳目一新,重新又盤活了整個(gè)硅谷的AI大戰(zhàn)。
無論是Meta、谷歌、OpenAI,還是Anthropic,大家的緊迫感又回來了——就像Meta創(chuàng)始人扎克伯格在一次All-hanDeepSeek全體員工會議中說,“所有人都要為緊張的一年做好準(zhǔn)備。
就在硅谷重新回到“作戰(zhàn)室”狀態(tài)之際,我也很認(rèn)同圖靈獎(jiǎng)得主Yann Lecun最近在LinkedIn上的發(fā)言:
在硅谷某些圈子里存在一種常見的疾病叫“錯(cuò)位的優(yōu)越感”,認(rèn)為你的小圈層壟斷了所有的好主意,假設(shè)其他地方的創(chuàng)新是通過作弊獲得的。
但現(xiàn)實(shí)是,當(dāng)大量有才華的人參與并分享他們的創(chuàng)新時(shí),科學(xué)技術(shù)才能進(jìn)步得更快。
而之后的AI格局,開源與閉源路線之戰(zhàn),算力之戰(zhàn),大模型和小模型之戰(zhàn),應(yīng)用之戰(zhàn)可能才剛剛打響...我們也會在硅谷為您持續(xù)關(guān)注。