文|硅谷101
DeepSeek的V3模型僅用557.6萬的訓(xùn)練成本,實(shí)現(xiàn)了與OpenAI O1推理模型相近的性能,這在全球范圍內(nèi)引發(fā)連鎖反應(yīng)。由于不用那么先進(jìn)的英偉達(dá)芯片就能實(shí)現(xiàn)AI能力的飛躍,英偉達(dá)在1月27日一天跌幅高達(dá)17%,市值一度蒸發(fā)6000億美元。一部分投資人擔(dān)心這會減少市場對先進(jìn)芯片的需求,但科技圈也普遍存在另一種相反的觀點(diǎn):一個(gè)高性能、低成本和開源的大模型會帶來整個(gè)應(yīng)用生態(tài)的繁榮,反而會利好英偉達(dá)的長期發(fā)展。
這兩種矛盾的觀點(diǎn)正左右博弈。但如果從技術(shù)層面分析,DeepSeek對英偉達(dá)、芯片甚至是整個(gè)科技行業(yè)的影響并不是如此簡單。比如本期嘉賓Inference.ai創(chuàng)始人兼CEO John Yue認(rèn)為,DeepSeek沖擊了英偉達(dá)兩大壁壘——NVLink與CUDA,這在某種程度上打掉了英偉達(dá)的溢價(jià),但也并未沖垮壁壘。
本期節(jié)目,主理人泓君邀請到加州大學(xué)戴維斯分校電子計(jì)算機(jī)工程系助理教授、AIZip的聯(lián)合創(chuàng)始人陳羽北,以及Inference.ai創(chuàng)始人兼CEO John Yue,詳細(xì)解讀DeepSeek核心的技術(shù)創(chuàng)新以及對芯片市場的影響。
以下是部分訪談精選
01 DeepSeek的核心創(chuàng)新是基礎(chǔ)模型能力
泓君:能不能先從技術(shù)上分析一下DeepSeek比較讓人驚艷的地方?
陳羽北:從DeepSeek這次的進(jìn)展來看,雖然強(qiáng)化學(xué)習(xí)在其中占據(jù)重要地位,但我認(rèn)為基礎(chǔ)模型DeepSeek V3本身的能力才是關(guān)鍵。這一點(diǎn)從DeepSeek的論文數(shù)據(jù)中可以得到印證——在R1 Zero未經(jīng)過強(qiáng)化學(xué)習(xí)時(shí),每生成100條內(nèi)容就有約10%的成功率,這已經(jīng)是非常顯著的提升。
DeepSeek這次采用的是GRPO(分組相對策略優(yōu)化)的方法,有人提出使用PPO(近端策略優(yōu)化)等其他強(qiáng)化學(xué)習(xí)方法也能達(dá)到類似效果。
這告訴我們一個(gè)重要信息:當(dāng)基礎(chǔ)模型的能力達(dá)到一定水平后,如果能找到合適的獎勵函數(shù),就可以通過類似search的方法實(shí)現(xiàn)自我提升。所以這次進(jìn)展傳遞了一個(gè)積極的信號,但強(qiáng)化學(xué)習(xí)在其中反而起到次要作用,基礎(chǔ)模型的能力才是根本。
泓君:總結(jié)你的觀點(diǎn),DeepSeek之所以好本質(zhì)上還是因?yàn)閂3的表現(xiàn)非常驚艷,因?yàn)橛帽热鏜oE等各種方式,去讓這個(gè)基礎(chǔ)模型性能更好。R1只是在這個(gè)基礎(chǔ)模型之上的一次升級,但是你覺得V3比R1-Zero更加重要
陳羽北:我覺得他們都有一些重要的點(diǎn)。從V3來看,主要集中在模型架構(gòu)效率的提升上,其中有兩個(gè)重要的工作:一個(gè)是混合專家網(wǎng)絡(luò)(MoE)。以前不同專家(expert)的負(fù)載均衡(load balance)做得不太好,在分散到不同節(jié)點(diǎn)時(shí)的時(shí)候,它的Load Balance會有問題,,所以他們對負(fù)載均衡做了優(yōu)化。
其次,它在Attention Layer上,他要節(jié)省鍵值緩存(KV Cache),其實(shí)這也是在提高架構(gòu)的效率。這兩點(diǎn)作為它的核心創(chuàng)新,使得它在600多B的大模型上,使得基礎(chǔ)模型的能力表現(xiàn)已經(jīng)挺不錯(cuò)的了。在DeepSeek R1 Zero中,他們首先設(shè)計(jì)了一個(gè)簡單直觀的基于規(guī)則(rule-based)的獎勵函數(shù)?;疽笫谴_保數(shù)學(xué)題的答案和回答格式都完全正確。他們采用了DeepSeek V3的方法:對每個(gè)問題生成100條回答,然后從中篩選出正確答案來增強(qiáng)正確回答的比重。
這種方法實(shí)際上繞過了強(qiáng)化學(xué)習(xí)(reinforcement learning)中最難處理的稀疏獎勵問題——如果我回答100條、回答1萬條它都不對,那我其實(shí)就沒有辦法去提升了。但如果任務(wù)已經(jīng)有一定成功率,就可以著重強(qiáng)化這些成功的部分,這樣就把稀疏獎勵轉(zhuǎn)變?yōu)橄鄬Τ砻艿莫剟?,也就不需要去搭橋、去建模、去?gòu)建中間的獎勵函數(shù)了。借助V3的基礎(chǔ)能力,R1 Zero告訴我們,如果這個(gè)模型的基礎(chǔ)能力已經(jīng)不錯(cuò)了,那么我是有可能通過這個(gè)模型自我來進(jìn)行提升的。其實(shí)這種思路和Model Predictive Control和世界模型,是有很多的相似之處的。
第二個(gè)是讓大模型訓(xùn)練小模型,看似是一個(gè)顯而易見但是這次也產(chǎn)生了重大影響力的一個(gè)結(jié)果。他們先訓(xùn)練了一個(gè)600 多B的大模型,通過自啟發(fā)式回答100個(gè)問題,然后用自我引導(dǎo)(Bootstrap)方法逐漸提高這個(gè)能力,將成功率從10%提升到70-80%。這個(gè)大模型還可以用來教導(dǎo)小模型。
他們做了一個(gè)有意思的實(shí)驗(yàn),在Qwen上做了從1.5B一直到30幾B的各種大小的蒸餾學(xué)習(xí),用大模型學(xué)到的推理和計(jì)劃能力來提升小模型在相關(guān)問題上的表現(xiàn)。這是一個(gè)相對容易想到的方向,因?yàn)樵谒械淖晕以鰪?qiáng)、模型預(yù)測控制(model predictive control)和基于模型的強(qiáng)化學(xué)習(xí)(model-based reinforcement learning)中,如果模型本身不夠好,通過搜索方法來提升效果都不會很理想。但如果用一個(gè)搜索能力強(qiáng)、表現(xiàn)好的大模型,直接把學(xué)到的能力傳授給小模型,這種方法是可行的。
泓君:所以從整體上看,DeepSeek采用的是一個(gè)組合拳策略,從V3到R1-Zero再到R1的每一步演進(jìn),在方向選擇上都有其可取之處。那么在硅谷的公司中,像OpenAI、Gemini、Claude以及LlaMA,他們是否也采用了類似的模型訓(xùn)練方法呢?
陳羽北:我覺得很多這樣的想法在之前的研究工作中就已經(jīng)出現(xiàn)過。
比如DeepSeek V3模型中使用的多頭潛在注意力機(jī)制(Multihead Latent Attention),Meta之前就發(fā)表過一篇關(guān)于多令牌層(Multi-Token Layer)的研究,效果也很相似。另外,在推理和規(guī)劃(Reasoning and Planning)方面,之前也有過很多相關(guān)研究,還有在獎勵機(jī)制和基于模型的方法(Model-Based Method)等這些方面。
其實(shí)我恰恰覺得這次DeepSeek R1 Zero的命名在一定程度上和AlphaZero有點(diǎn)像。
02 對英偉達(dá)利好與利空:沖擊溢價(jià)但并未沖垮壁壘
泓君:想問一下John,因?yàn)槟闶荊PU行業(yè)的,你覺得DeepSeek R1對英偉達(dá),它到底是利好還是利空?為什么英偉達(dá)的股價(jià)會跌?
John Yue:這應(yīng)該是一把雙刃劍,既有利好也有利空。
利好方面很明顯,DeepSeek的出現(xiàn)給了人們很多想象空間。以前很多人已經(jīng)放棄做AI模型,現(xiàn)在它給了大家信心,讓更多初創(chuàng)企業(yè)出來探索應(yīng)用層面的可能性。如果有更多人做應(yīng)用,這其實(shí)是英偉達(dá)最希望看到的局面,因?yàn)檎麄€(gè)AI行業(yè)被盤活后,大家都需要購買更多的卡。所以從這個(gè)角度看,這對英偉達(dá)更有利。
而不利的一面是英偉達(dá)的溢價(jià)確實(shí)受到了一些沖擊。很多人一開始認(rèn)為它的壁壘被沖倒了,導(dǎo)致股價(jià)大跌。但我感覺實(shí)際情況并沒有那么嚴(yán)重。
泓君:壁壘是什么?
John Yue: 英偉達(dá)有兩個(gè)最大的壁壘:一個(gè)是Infiniband(芯片互聯(lián)技術(shù));另一個(gè)是CUDA(圖形計(jì)算統(tǒng)一架構(gòu)),它那整套調(diào)用GPU的系統(tǒng),與AMD等其他芯片公司已經(jīng)不在同一層面競爭了。其他公司都在爭單張顯卡的性能,而英偉達(dá)比拼的是芯片互聯(lián)技術(shù)以及軟件調(diào)用和生態(tài)系統(tǒng)的維護(hù)。對于這兩個(gè)壁壘,DeepSeek確實(shí)都稍微沖擊到了它的溢價(jià),但并沒有把壁壘完全沖垮。
具體來說,對英偉達(dá)溢價(jià)的沖擊體現(xiàn)在:
- MOE的優(yōu)化實(shí)際上在一定程度上削弱了英偉達(dá)互聯(lián)的這一部分重要性?,F(xiàn)在的情況是,我可以把不同的expert放在不同的計(jì)算卡上,使得卡與卡之間的互聯(lián)不再那么關(guān)鍵。而且,一些暫時(shí)不需要工作的expert可以進(jìn)入休眠狀態(tài),這對于英偉達(dá)互聯(lián)技術(shù)的需求確實(shí)帶來了一定沖擊。
- 另一方面,在CUDA方面,這其實(shí)是在告訴大家,現(xiàn)在存在一種新的可能性。以前大家可能都認(rèn)為繞不開CUDA,而現(xiàn)在我們的(指DeepSeek)團(tuán)隊(duì)已經(jīng)證明,確實(shí)可以“繞開”CUDA,直接使用PTX進(jìn)行優(yōu)化,這并不意味著所有團(tuán)隊(duì)以后都具備這樣的能力,但至少,它提供了一種可行的方案——也就是說,現(xiàn)在有可能做到這件事。而這種可能性會導(dǎo)致,未來我不一定非要購買英偉達(dá)的顯卡,或者說,不需要最先進(jìn)的英偉達(dá)顯卡,或者可以使用更小型的英偉達(dá)顯卡來運(yùn)行模型。
泓君:什么叫做繞過CUDA,它是真的繞過CUDA了嗎?我聽到的說法是說,它用的不是CUDA比較高層的API,但還是用了比較底層的API。
John Yue:對,我用詞不太準(zhǔn)確,準(zhǔn)確地說并沒有完全繞過CUDA的生態(tài),而是可以直接調(diào)用更底層的庫,不是使用高層API,而是直接調(diào)用PTX(并行線程執(zhí)行)——這是一個(gè)指令集上面一層的指令集層級,然后在這一層直接進(jìn)行優(yōu)化。不過這也是一個(gè)很大的工程,并不是任何一個(gè)小公司都有能力去做這件事情。
泓君:如果DeepSeek具備了這種能力,其他公司是否也能獲得類似能力?假設(shè)現(xiàn)在買不到英偉達(dá)的GPU,轉(zhuǎn)而使用AMD的GPU,那你剛才提到NVIDIA的兩個(gè)核心壁壘:NVLink和CUDA,在某種程度上受到?jīng)_擊,這對AMD這樣的公司來說是否是一個(gè)利好?
John Yue: 短期來看對AMD是個(gè)利好,因?yàn)锳MD最近已經(jīng)宣布將DeepSeek給移植過去了。但長期來看,可能還是英偉達(dá)占優(yōu)勢。這畢竟只是DeepSeek這一個(gè)模型,而CUDA厲害的地方在于它是通用的GPU調(diào)用系統(tǒng),任何軟件都可以用CUDA。DeepSeek這種做法只支持DeepSeek自己,如果有新的模型出現(xiàn),還要重新適配一次。
我們就是在賭DeepSeek是否真的能成為業(yè)界標(biāo)準(zhǔn),成為下一個(gè)OpenAI,讓所有初創(chuàng)企業(yè)都在它的基礎(chǔ)上構(gòu)建。如果是這樣,對AMD來說確實(shí)不錯(cuò),因?yàn)樗呀?jīng)完成了DeepSeek的移植。但如果不是DeepSeek呢?DeepSeek的優(yōu)勢主要在于對強(qiáng)化學(xué)習(xí)和GRPO這些方法的改進(jìn)。如果后面出現(xiàn)更多使用其他方法的模型,那又要重新適配,比起直接用CUDA要麻煩得多,還不如直接用Cuda。
泓君:所以你的核心觀點(diǎn)是它動搖了英偉達(dá)的兩大核心壁壘NVLink和Cuda,那從GPU的需求上來看呢?
John Yue: 我沒覺得動搖了這兩個(gè)壁壘, 目前英偉達(dá)的兩個(gè)壁壘還是很堅(jiān)挺的,只是對溢價(jià)有沖擊,可能你收不了那么高的價(jià)格了,但這不意味著其他競品能突然就進(jìn)來。
泓君:它是一個(gè)非常漫長的過程?
John Yue:其他競品做的跟這兩個(gè)壁壘不太一樣。可以針對單個(gè)模型繞過CUDA,但還沒人能做出通用的替代方案。所以實(shí)際上沒有撼動英偉達(dá)的壁壘。就像一堵墻,大家以前都覺得翻不過去,現(xiàn)在DeepSeek跳過去了。那其他人能不能過來呢?它只是提供了一個(gè)精神上的鼓勵。
泓君:對GPU的需求會減少嗎?因?yàn)镈eepSeek這次訓(xùn)練成本低,從某種程度上來說,股價(jià)下跌也意味著,是不是用更少的GPU就能訓(xùn)練出更好的模型了?
John Yue:如果只看訓(xùn)練這一個(gè)模型的話,確實(shí)是這樣。但DeepSeek真正的重大意義在于重新激發(fā)了AI從業(yè)者的熱情。這樣看的話,應(yīng)該會有更多的公司進(jìn)入市場,他們會購買更多的芯片。所以這件事可能會導(dǎo)致溢價(jià)降低但銷售量增加。至于最終市值是增加還是減少,要看這個(gè)比例關(guān)系。
泓君:你怎么看?
John Yue:這個(gè)不好說,關(guān)鍵還是要看應(yīng)用。到2025年,大家能開發(fā)出什么樣的應(yīng)用。如果之前應(yīng)用發(fā)展的主要阻力是GPU價(jià)格的話,那隨著價(jià)格降到十分之一甚至更低,這個(gè)阻力就消除了,市值應(yīng)該會上漲。但如果主要阻力在其他方面,那就很難說了。
泓君:其實(shí)就是說,隨著AI應(yīng)用的增多,DeepSeek降低了門檻,從GPU需求來看,整體上反而對英偉達(dá)更有利。
John Yue:對。因?yàn)檫@些應(yīng)用開發(fā)者不會自己組建團(tuán)隊(duì)去重復(fù)DeepSeek的工作,比如繞過Cuda去調(diào)用PTX。一些小公司他們需要開箱即用的解決方案。所以這對英偉達(dá)有利,英偉達(dá)最希望看到的就是更多AI公司的出現(xiàn)。
泓君:更多的AI公司出來,他們需要的是訓(xùn)練模型的GPU,還是更多的推理?
John Yue:我個(gè)人覺得,推理芯片領(lǐng)域未來也會是英偉達(dá),我不覺得這些小公司長期有一些優(yōu)勢,它短期大家都有優(yōu)勢。長期我覺得推理是英偉達(dá),訓(xùn)練也是英偉達(dá)。
泓君:為什么推理也是英偉達(dá)?
John Yue:因?yàn)樗€是CUDA,還是這個(gè)行業(yè)的龍頭。剛才提到的兩個(gè)壁壘也沒有被動搖。
現(xiàn)在的ASIC(專用集成電路)公司主要面臨兩個(gè)問題:軟件支持不足,硬件缺乏壁壘。在硬件上,我沒看到很強(qiáng)的壁壘,大家基本趨于同質(zhì)化。
軟件則是另一個(gè)大問題。這些ASIC公司在軟件維護(hù)方面做得都不夠好,連PTX層面的維護(hù)都不夠完善。這兩個(gè)因素導(dǎo)致英偉達(dá)還是一直占有龍頭地位。
泓君:推理芯片對軟件的要求也同樣高嗎?在整個(gè)GPU跟訓(xùn)練的這個(gè)芯片上,英偉達(dá)有絕對的壟斷地位,因?yàn)槟闶请x不開或者很難繞過這一套系統(tǒng)的,但是推理訓(xùn)練上,方便繞過去嗎?
John Yue:推理對軟件要求也很高,還是需要調(diào)用GPU的底層指令。Grok在軟件方面比英偉達(dá)差距還很大。你看他們現(xiàn)在的模式越來越重,從最初只做芯片,到現(xiàn)在自建數(shù)據(jù)中心,再到做自己的云服務(wù)。等于是在構(gòu)建一個(gè)完整的垂直產(chǎn)業(yè)鏈。但它的資金跟英偉達(dá)相比差距很大,憑什么能做得更好?
泓君:現(xiàn)在市場上有值得關(guān)注的芯片公司嗎?
John Yue:我覺得AMD有一定機(jī)會,但其他的ASIC公司可能還差一些。即便是AMD,與英偉達(dá)相比也還有很長一段距離。
我個(gè)人覺得,如果要在芯片領(lǐng)域創(chuàng)新,可能更應(yīng)該聚焦在芯片的軟件維護(hù)上,而不是在硬件上做改變。比如在DDR(雙倍數(shù)據(jù)速率)、Tensor Core(張量計(jì)算核心)、CUDA Core(通用計(jì)算核心)之間調(diào)整比例,這其實(shí)意義不大。這樣做等于是在幫英偉達(dá)當(dāng)大頭兵,看看這種比例的產(chǎn)品是否有市場,但你建立不了什么壁壘。
但是在軟件這塊還有很大的優(yōu)化空間,比如開發(fā)一套比CUDA更優(yōu)秀的軟件系統(tǒng)。這可能會有很大的機(jī)會,但也不是一件容易的事情。
03 開源生態(tài):降低AI應(yīng)用的準(zhǔn)入門檻
泓君:你們覺得DeepSeek選擇開源的這條路,對行業(yè)的生態(tài)具體會有哪些影響?最近在美國的reddit上,很多人已經(jīng)開始去部署DeepSeek的模型了。它選了開源以后,這個(gè)開源到底是怎么去幫助DeepSeek把模型做得更好的?
John Yue:最近我們也部署了一些DeepSeek的模型在我們平臺上面,我覺得他開源是一件對整個(gè)AI行業(yè)非常好的事情。因?yàn)槿ツ晗掳肽暌院?,大家會感覺有一點(diǎn)失落,因?yàn)锳I應(yīng)用看起來都起不來。起不來有一大原因就是很多人覺得Open AI把所有應(yīng)用的壁壘都能打掉了個(gè)百分之八九十,大家都是比較惶恐的。就是我做一個(gè)什么東西,明年OpenAI出個(gè)o4,就把我東西全部覆蓋了。
那我如果做這個(gè)東西建立在OpenAI上的話,它出一個(gè)新的模型,把我的應(yīng)用完全包含進(jìn)去了;我在價(jià)格上也沒法跟他爭,我在功能上沒法跟他爭,這就導(dǎo)致很多公司不太敢去做,VC也不太敢進(jìn)來。
這次DeepSeek開源,對整個(gè)行業(yè)的一個(gè)好處:我現(xiàn)在用的是一個(gè)開源做得非常好的一個(gè)模型,那這樣的話我有一定的這種連續(xù)性,我就有更大的更多的信心去做更多的應(yīng)用。
DeepSeek如果有能力去超過OpenAI的話,那對整個(gè)行業(yè)就更好了。就等于說是有一條惡龍現(xiàn)在它不存在了,大家發(fā)展的就能更好一些。
更多人用它,它就跟LlaMA的邏輯是一樣的,有更多人用,有更多反饋,所以它的模型能做得更好。DeepSeek也是這樣,如果有更多的應(yīng)用開發(fā)者,它收集數(shù)據(jù)的速度肯定是比其他模型快很多。
泓君:現(xiàn)在我們能看到一個(gè)開源的模型,它在整個(gè)的性能上已經(jīng)跟OpenAI的o1,基本上是一個(gè)量級的。那可以預(yù)期OpenAI它發(fā)了o3 mini之后,開源模型可能也會升級,也會有下一個(gè)版本再來超過這些閉源模型的。我在想當(dāng)一個(gè)開源模型它的性能足夠好的時(shí)候,OpenAI這些閉源模型它存在的意義是什么?因?yàn)榇蠹揖椭苯涌梢阅玫阶詈玫拈_源模型的底座去用了。
John Yue:DeepSeek的意義在于它的價(jià)格降了很多,它是開源的。
不是說比OpenAI已經(jīng)好了。閉源模型還會是領(lǐng)先的一個(gè)趨勢。開源的意義可能就在于它會像安卓一樣,誰都可以用,然后非常便宜。這樣它降低了進(jìn)入行業(yè)的門檻,所以它才是真正讓這個(gè)行業(yè)蓬勃的一個(gè)因素。
這些閉源的模型它有可能是一直領(lǐng)先的。閉源如果還不如開源,那可能就沒有意義,但它應(yīng)該是有管理上面的優(yōu)勢,可以超過開源模型。
泓君:那現(xiàn)在看起來確實(shí)是有一批閉源不如開源的。
John Yue:那就自求多福,如果閉源還不如開源,我也不知道這公司在干什么,你還不如免費(fèi)好。
陳羽北:我覺得開源的生態(tài)是非常重要的。因?yàn)槲页嗽趯?shí)驗(yàn)室以外,我之前參與一家公司叫AIZip,也做很多的全棧的這種AI應(yīng)用。然后你會發(fā)現(xiàn)一件事情,很多這種開源的模型你直接是無法使用的,就是產(chǎn)品級的東西你無法直接使用這些開源的模型。但是如果有這樣的開源的模型,可能會大大提高你生產(chǎn)出一個(gè)這種產(chǎn)品級的模型的能力,大大提高你的效率。
所以你像DeepSeek也好,LlaMA也好,我覺得這種開源的這種生態(tài)對于整個(gè)的社區(qū)來講是至關(guān)重要的一件事情。因?yàn)樗档土怂械腁I應(yīng)用準(zhǔn)入門檻。那見到更多的AI的應(yīng)用,它有更多的觸及這件事情是對于每一個(gè)做AI的人是一個(gè)非常利好的消息。
所以我認(rèn)為Meta在做的這件事情很重要,LlaMA一直在堅(jiān)持開源構(gòu)建,這樣讓所有的AI的開發(fā)者都可以做自己的應(yīng)用,雖然LlaMA并沒有把這個(gè)應(yīng)用直接給你做完,他給你提供了一個(gè)Foundation。Foundation顧名思義它就是一個(gè)地板,對吧?你可以在這個(gè)地板之上,你可以構(gòu)建你所想要構(gòu)建的這種應(yīng)用,但是他把90%的任務(wù)給你做好了。
我認(rèn)為更好的Foundation對于整個(gè)生態(tài)是非常重要的。OpenAI下大功夫來優(yōu)化的一些能力的話,它依然會有這樣的優(yōu)勢。但是我們也不希望這個(gè)市場上只有OpenAI,那對于所有的人來講可能都是一個(gè)不利的消息。
04 API價(jià)格下降與小模型的想象空間
泓君:DeepSeek是怎么把API接口的價(jià)格給降下來的?因?yàn)槲铱戳艘幌滤倪@個(gè)R1官網(wǎng)寫的是,每百萬輸入的Token,緩存命中的是1塊錢,緩存未命中的是4塊錢,每百萬輸出的Token是16塊錢。o1的價(jià)格我整體算了一下,差不多每個(gè)檔位都是他們的26到27倍之高。它是怎么把這個(gè)API的成本給降下來的?
John Yue:它等于是從上到下做了整個(gè)的一套優(yōu)化。從PTX這塊怎么調(diào)用,底下的GPU到MOE的架構(gòu),到Low Balance,它都做了一套優(yōu)化。
這里面可能最重要的一點(diǎn),就是它可以降低了對芯片的要求。你本來非得在H100上,A100上跑,你現(xiàn)在可以用稍微低端一些(的芯片),或者你甚至可以用Grok。你可以用國內(nèi)的那些嚴(yán)格版的H800這些卡去跑。那這樣,它其實(shí)就已經(jīng)大幅度地降低了每個(gè)Token的成本。
它里頭如果再做優(yōu)化,比如切分GPU,它其實(shí)可以降下來很多。而且OpenAI內(nèi)部其實(shí)也說不定人家早都降下來了,它只是不想降Retail的價(jià)格,這也不確定。
我覺得主要就是這兩個(gè)吧,一個(gè)是架構(gòu)上,一個(gè)是芯片,可以降級了。
泓君:芯片降級未來會成為行業(yè)的普遍現(xiàn)象嗎?
John Yue:我覺得不會,因?yàn)橛ミ_(dá)已經(jīng)停產(chǎn)了所有老芯片,市面上數(shù)量有限。比如說雖然可以在V100上運(yùn)行,但V100早就停產(chǎn)了。而且每年都要計(jì)算折舊,可能過兩年市面上就找不到V100了。英偉達(dá)只會生產(chǎn)最新的芯片。
泓君:那它的成本還是低的嗎?
John Yue:如果在新芯片上做一些優(yōu)化,比如我們這種GPU切分方案,成本是可能降低的。因?yàn)槟P妥冃×?。我們最近運(yùn)行它的7B模型,只需要大約20GB。我們可以把一張H100切成三份來運(yùn)行DeepSeek,這樣成本直接降低三分之一。
我覺得未來可能會更多地使用虛擬化GPU來降低成本。僅僅依靠老卡和游戲卡是不現(xiàn)實(shí)的,原因有幾個(gè),一是英偉達(dá)有黑名單機(jī)制,不允許用游戲卡正式部署這些模型;老卡除了停產(chǎn)問題,還有很多維護(hù)方面的問題。所以我不認(rèn)為芯片降級會成為主流現(xiàn)象。
泓君:所以現(xiàn)在你們是在為客戶提供芯片優(yōu)化,幫助節(jié)省成本。那你最近客戶應(yīng)該是暴增,你覺得這個(gè)是受益于DeepSeek,還是說你們一直在做這件事情?
John Yue:我們從去年就開始做這件事,一直在賭未來會有更多的小模型。DeepSeek出來后,就像剛才說的,它帶來了一個(gè)趨勢,會蒸餾出更多的小模型。如果大家要運(yùn)行更多小模型,就需要不同型號的芯片,每次都用物理芯片可能比較困難。
泓君:DeepSeek降低了整個(gè)API成本,你剛才也分析了它的研究方法。你覺得這套研究方法未來有可能用在更多場景中嗎,比如你們在做GPU分片和客戶模型時(shí)?會不會引發(fā)整個(gè)行業(yè)對GPU成本的節(jié)???
John Yue: 應(yīng)該可以。DeepSeek的出現(xiàn)向行業(yè)證明了現(xiàn)在有更優(yōu)的強(qiáng)化學(xué)習(xí)方法。我覺得后面肯定會有很多人采用相同的方法。在調(diào)用CUDA這塊,以前可能沒人敢嘗試,他們證明了幾個(gè)博士畢業(yè)生也能很快繞過CUDA,后面可能很多模型公司都會效仿,這樣大家都這么做的話,成本肯定會下降。
泓君:所以我理解現(xiàn)在訓(xùn)練成本降低了,推理成本也大幅下降了,那你們現(xiàn)在幫客戶去部署這種GPU的時(shí)候,客戶的主要需求是什么?
John Yue:簡單便捷、快速部署和低價(jià)格。我們能解決部署成本問題,因?yàn)榇_實(shí)存在很多浪費(fèi)。比如一張A100或H100都是80GB,但如果你要蒸餾出一些小模型,或者使用現(xiàn)有的Snowflake、Databricks那種模型,可能只需要10GB,有的更小。在80GB的GPU上部署10GB的內(nèi)容,就等于大部分GPU都浪費(fèi)了,但你還是要支付整個(gè)GPU的費(fèi)用。
另外,推理(Inference)時(shí)工作負(fù)載是彈性的,有時(shí)客戶增多,有時(shí)減少。如果每張卡上都有浪費(fèi)的空間,擴(kuò)展時(shí)每張卡都會有這樣的浪費(fèi)。我們現(xiàn)在做的是將其虛擬化,這樣就完全沒有浪費(fèi),就等于比較簡單粗暴地解決了很多GPU部署成本的問題。
陳羽北:這個(gè)領(lǐng)域其實(shí)還有一個(gè)有意思的方向,小模型在過去6到8個(gè)月的進(jìn)展非???,這可能帶來一個(gè)變革。之前全世界99%的算力對大家是不可見的,人們不會意識到ARM芯片或高通芯片里具備AI能力。未來如果有大量小語言模型、視覺語言模型(VLM)、音頻智能等能力,可能會越來越多地出現(xiàn)在曾經(jīng)不會被用到的平臺上,比如特斯拉的車上已經(jīng)用到了很多。
你會發(fā)現(xiàn)越來越多的設(shè)備,比如手機(jī)、耳機(jī)、智能眼鏡,現(xiàn)在是一個(gè)火爆品類,很多公司都在做,都會搭載設(shè)備端On-Device AI。這對降低成本、提高AI可用性有巨大機(jī)會。
泓君:小模型好用嗎?
陳羽北:小模型其實(shí)在很多的領(lǐng)域有很多的基本的應(yīng)用。當(dāng)你把小模型給到足夠的訓(xùn)練以后,它最終和大模型的性能差不多。
泓君:說一個(gè)具體的應(yīng)用場景。
陳羽北:比如說,我們用到這個(gè)話筒,里面有降噪功能,可以用一個(gè)極小的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),這個(gè)神經(jīng)網(wǎng)絡(luò)可以放在話筒里。即使把模型放大10倍、100倍,性能差異也不會很大。
這樣的功能會越來越多地被集成進(jìn)來,比如小語言模型可以放在智能手表上,做一些基本的問答、調(diào)用API,完成基本工作。更復(fù)雜的任務(wù)可以轉(zhuǎn)移到云端,形成分層的智能系統(tǒng)。現(xiàn)在一個(gè)智能手表就能做非常復(fù)雜的推理了。手機(jī)上的高通芯片,推理能力可以達(dá)到50TOPS(每秒萬億次操作),這是一個(gè)很大的算力,與A100相差不大。很多小模型可以勝任大模型已經(jīng)在做的事情,這對降低成本、提高AI的普及程度有很大幫助。
泓君:小模型是本地的還是聯(lián)網(wǎng)的?
陳羽北:本地的。
泓君:所以未來我們整個(gè)世界里面可能會有各種各樣的小模型。當(dāng)這個(gè)小模型不夠用的時(shí)候,它再去調(diào)動這種大模型,這樣就可以極大地節(jié)省這一部分的推理成本?
陳羽北: 對,我認(rèn)為未來AI的基礎(chǔ)設(shè)施應(yīng)該是分層的。最小的可以到終端設(shè)備,在傳感器里做一些基本的運(yùn)算。在邊緣端會有更多的AI功能,再到云端,形成端-邊-云的完整體系。
我之前提到過一個(gè)數(shù)字,如果做個(gè)簡單計(jì)算,把全世界終端和邊緣端的算力加起來,會是全球HPC(高性能計(jì)算)中GPU算力的100倍。這是個(gè)非常可怕的一件事,因?yàn)轶w量太大了。高性能GPU的出貨量可能在百萬片級別,但手機(jī)和邊緣端設(shè)備可能達(dá)到百億級別,到傳感器這個(gè)級別可能還要再大一兩個(gè)數(shù)量級。當(dāng)體量上去后,加起來的算力是極其龐大的。
泓君:那芯片夠用嗎?比如說高通的芯片。
陳羽北:它可以做很多很復(fù)雜的功能。從小語言模型到VLM(視覺語言模型),再到音頻的ASR(自動語音識別)等。對于這些我稱之為"初級AI功能"的任務(wù),無論是代理型還是感知型,在邊緣平臺和終端設(shè)備上都能完成。最復(fù)雜的任務(wù)則會轉(zhuǎn)移到云端處理。
另一個(gè)是全球90%到99%的數(shù)據(jù)其實(shí)都在終端和邊緣端。但現(xiàn)在大多數(shù)情況下是“用掉就丟”(use it or lose it)。比如,你不可能把攝像頭的所有視頻都傳到云端。如果在終端和邊緣端有AI功能,就可以篩選出最有價(jià)值的數(shù)據(jù)上傳,這的價(jià)值是巨大的。目前這些數(shù)據(jù)都還沒有被充分利用。
未來當(dāng)初級AI功能增多后,這些初級AI模型反而可以作為大模型的一種數(shù)據(jù)壓縮工具。
泓君:現(xiàn)在大家部署的是DeepSeek的小模型嗎,還是LlaMA的?
陳羽北:其實(shí)可能都不是。整個(gè)生態(tài)里有Qwen,LlaMa,還有DeepSeek,也有很多自研的,所以我覺得整個(gè)生態(tài)里面,只能說是越來越多的這樣的小模型在涌現(xiàn),而且它們的能力在快速提高。
泓君:選模型看重什么關(guān)鍵點(diǎn)?
陳羽北:首先是效率問題:模型必須運(yùn)行快速,體積要小。
但更重要的是質(zhì)量要求:沒有人會為一個(gè)又快又小但不好用的模型付費(fèi)。模型必須能夠勝任它要處理的任務(wù)。這就是我所說的AI魯棒性,這一點(diǎn)非常重要。比如說話筒的降噪功能,它必須能保證音質(zhì)。如果處理后的聲音很粗糙,沒人會使用它,大家還是會選擇用后期處理軟件。
泓君:所以在應(yīng)用端的話,大家看的并不是說最前沿的模型是什么,而是說最適合我的模型是什么,然后選成本最低的就可以了。
05 提問DeepSeek:數(shù)據(jù)與持續(xù)創(chuàng)新能力
泓君:因?yàn)楝F(xiàn)在關(guān)于DeepSeek很多的信息都已經(jīng)公開出來了,你們對這家公司還有沒有非常好奇的問題?
陳羽北:在他們發(fā)表的文章中,具體的數(shù)據(jù)構(gòu)成并沒有被詳細(xì)披露,很多訓(xùn)練細(xì)節(jié)也只是在宏觀層面提及。當(dāng)然,我理解不是所有內(nèi)容都應(yīng)該公開,這個(gè)要求不合理。但如果能提供更多細(xì)節(jié),讓其他人更容易復(fù)現(xiàn)這項(xiàng)工作,可能會更好。所有前沿研究實(shí)驗(yàn)室都有這樣的趨勢,在涉及數(shù)據(jù)這塊時(shí)都比較含糊。
泓君:有些連OpenAI都不敢寫,所有的大模型公司問到數(shù)據(jù)他們都是不敢答的。
陳羽北:連數(shù)據(jù)是如何平衡的、時(shí)長以及具體的處理流程這些都沒有寫出來。我理解不寫具體的數(shù)據(jù)組成,但至少可以寫一下數(shù)據(jù)是如何整理的。但很多時(shí)候這些細(xì)節(jié)大家都不寫,而我覺得這些恰恰是最關(guān)鍵的部分。其他一些方法反而很容易想到,比如用搜索方法來做推理規(guī)劃,或者當(dāng)模型夠好時(shí),用自舉方法提高性能,再或者用大模型直接自舉出結(jié)果給小模型。
真正難想到的是兩個(gè)方面:數(shù)據(jù)的具體構(gòu)成和架構(gòu)中的底層創(chuàng)新。我覺得這些才是最關(guān)鍵的內(nèi)容。
John Yue:我比較關(guān)注DeepSeek這家公司是否能持續(xù)給大家驚喜,繼續(xù)挑戰(zhàn)OpenAI。如果它能不斷給我們帶來驚喜,讓大家最終都在DeepSeek上開發(fā)應(yīng)用,那對整個(gè)芯片和基礎(chǔ)設(shè)施領(lǐng)域的格局確實(shí)會帶來較大改變。
就像我剛才說的,DeepSeek已經(jīng)繞過CUDA去適配很多東西,如果它能繼續(xù)保持這個(gè)位置,其他芯片廠商可能也會有機(jī)會,這對英偉達(dá)的生態(tài)系統(tǒng)也會構(gòu)成一定挑戰(zhàn),溢價(jià)肯定會下降。但如果下一個(gè)模型,比如Llama 4出來,假如它比DeepSeek好很多,那可能又要重新回到起點(diǎn)。