文|壹番財經(jīng) 鄭亦久
在AI大模型的演進似乎放緩甚至陷入停滯的2025年初,國產(chǎn)大模型DeepSeek的橫空出世,重新點燃了整個行業(yè)的激情。
它不僅在多項標準評測中展現(xiàn)出驚人的性能,更通過開源策略獲得了廣泛的社區(qū)支持。一時間,全球媒體、行業(yè)專家、甚至是機構投資人紛紛給予高度評價,而這些反饋傳回國內(nèi)之后有人將其譽為“國產(chǎn)AI的里程碑”,更有甚者將其與“國運”掛鉤,于是DeepSeek瞬間形成破圈之勢,并直接登頂微博熱搜第一位。
然而,在這片贊譽聲中,往往更需要保持清醒的認識。
畢竟在AI領域,我們已經(jīng)目睹過太多曇花一現(xiàn)的“明星產(chǎn)品”,它們在短暫的光環(huán)過后,要么被市場淘汰,要么被證明徒有其表。
對于DeepSeek的評價,既要看到它確實展現(xiàn)出的技術路線創(chuàng)新,更要考量其路徑實現(xiàn)背后的原理以及局限,更重要的是當前這個AI幾乎以日新月異的發(fā)展階段,我們應該以什么樣的心態(tài)來看待技術創(chuàng)新。
01 DeepSeek憑啥能讓美國AI界抖一抖?
DeepSeek最先引發(fā)熱潮是在美國,其更是在近期一舉反超ChatGPT,一舉登頂美區(qū)蘋果應用商店免費App排行第一,整個硅谷和AI界都對這款產(chǎn)品發(fā)出了極強好奇心。
蘋果應用商店免費App排行榜
毫無疑問,DeepSeek最近發(fā)布的DeepSeek-R1模型在AI領域掀起了一場技術革新的風暴。這款開源推理大語言模型基于DeepSeek V3混合專家模型開發(fā),在數(shù)學、編程和推理任務上達到了與OpenAI的前沿推理模型o1相媲美的性能,而訓練成本卻降低了90-95%。
這一突破不僅展示了開源模型在向AGI邁進的過程中正在快速追趕封閉的商業(yè)大模型,更重要的是揭示了一種全新的AI訓練范式。
DeepSeek的技術創(chuàng)新主要體現(xiàn)在以下幾個方面:
首先是模型訓練效率的突破性提升。
DeepSeek V3僅使用了2788K H800訓練時長(約合560萬美元成本)就達到了接近GPT-4的水平,這一數(shù)字之低令業(yè)界震驚。更重要的是,他們采用了“AI訓練AI”的創(chuàng)新方法:使用R1模型生成合成數(shù)據(jù)來提升V3的能力。
DeepSeek V3測評
其次是在純強化學習方面的開創(chuàng)性嘗試。
DeepSeek實際上開發(fā)了兩個R1模型:公開的R1和更具突破性的R1-Zero。R1-Zero的特別之處在于它完全摒棄了傳統(tǒng)的“基于人類反饋的強化學習”(RLHF)方法,而是采用純強化學習方式。他們給模型設置了兩個獎勵函數(shù):一個用于判斷答案的正確性,另一個用于評估思維過程的合理性。這種方法讓模型能夠同時嘗試多個不同的答案,并通過這兩個獎勵函數(shù)進行評分。
在這個自主學習的過程中,研究人員觀察到了一個有趣的現(xiàn)象,他們稱之為“醍醐灌頂”時刻。就像人類在解決難題時突然開竅一樣,AI模型在訓練過程中學會了一種全新的思考方式:它會停下來重新思考問題,不急于得出結論。這個發(fā)現(xiàn)告訴我們,只要給AI足夠的學習空間和正確的目標,它就能自己發(fā)展出復雜的思維能力,不需要人類事無巨細地教導。
然而,這種完全自主學習的AI雖然聰明,但它的思考方式對人類來說很難理解。就像一個天才學生用自創(chuàng)的方法解題,雖然答案正確,但老師和同學都看不懂他的解題過程。為了解決這個問題,DeepSeek開發(fā)了更實用的R1模型。他們先教會AI用人類容易理解的方式來表達思路,然后再讓它自主學習和提升。這個過程就像是在保持天才創(chuàng)造力的同時,教會他如何清晰地表達自己的想法。
此外,在知識傳遞結構方面。
DeepSeek發(fā)現(xiàn)了一種讓小型AI模型快速進步的方法:用更強大的AI來給它們上課。這就像是讓一位資深教授來培養(yǎng)年輕教師,效果往往比讓年輕教師自己摸索要好得多。此發(fā)現(xiàn)非常重要,因為它為解決AI普及過程中的成本問題提供了新思路。最令人驚喜的是,通過該方法訓練出的小型模型,在某些數(shù)學測試中居然表現(xiàn)得比一些超大型AI還要好。
這些創(chuàng)新成果確實令人振奮,尤其是在效率提升和成本降低方面的突破,為AI技術的進一步普及帶來了新的可能。
但在為這些成就歡呼之前,也許還需要更多冷靜的思考:這些創(chuàng)新是否真的如表面看起來那么完美?DeepSeek的發(fā)展路徑是否真的可持續(xù)?同時,在技術快速迭代的AI領域,或許更應該退后一步以理性和務實的態(tài)度來評估這些新突破。
02 AI需要祛魅,別再迷信一時造“新神”
在肯定DeepSeek成就的同時,我們也要清醒地認識到其局限性。
Meta AI研究部門FAIR的首席科學家楊立昆最近對此提出了一個深刻的觀點:當人們看到DeepSeek的出色表現(xiàn)就認為“中國在AI領域超越了美國”時,這其實是一種誤讀。正確的理解應該是“開源模型正在超越閉源專有模型”。
他指出,DeepSeek的成功很大程度上得益于開源研究和開源社區(qū),如來自Meta的PyTorch和Llama,他們是在其他人的工作基礎上提出新想法并構建的。正是因為這些工作都是公開發(fā)布和開源的,所以每個人都能從中受益——這正是開源研究和開源精神的力量所在。
這一評論其實真正道出了關鍵。以DeepSeek最新的模型蒸餾實踐為例,其將蒸餾后的Llama模型以MIT許可證發(fā)布,實際上違反了Llama的原始許可協(xié)議。
DeepSeek模型蒸餾實踐
Meta推出的Llama大模型雖然是“開源”的,但并非像MIT許可證那樣完全無限制,DeepSeek無權單方面改變這一許可條款。此問題不僅暴露出DeepSeek在知識產(chǎn)權管理和商業(yè)合規(guī)性方面的不足,更反映出其發(fā)展很大程度上依賴于開源社區(qū)的貢獻。
此外,雖然DeepSeek在技術層面確實有創(chuàng)新,但這些創(chuàng)新大多是在現(xiàn)有技術框架下的優(yōu)化和改進,而非根本性的突破。
放眼整個AI領域的發(fā)展歷程,真正的技術革新往往來自于對基礎理論的突破和新范式的創(chuàng)立。從這個角度來看,DeepSeek的創(chuàng)新還停留在路徑“改良”層面,距離真正的技術突破還有很長的路要走。
其次,在實際應用層面,DeepSeek還面臨著諸多挑戰(zhàn)。
大語言模型的商業(yè)化不僅需要過硬的技術實力,更需要考慮系統(tǒng)穩(wěn)定性、數(shù)據(jù)安全、成本效益等多個維度。目前DeepSeek還缺乏大規(guī)模商業(yè)應用的驗證,其在復雜實際場景中的表現(xiàn)還有待檢驗,像是最近兩天因為熱度持續(xù)攀升,開始有更多普通用戶涌入后,光是27號這一天里就已經(jīng)多次出現(xiàn)服務宕機的情況。
DeepSeek App截圖
而如今AI產(chǎn)品的一大營收來源其實還是企業(yè)級應用,在這一場景中穩(wěn)定性和可靠性的要求往往比簡單的性能指標更為重要。
從產(chǎn)業(yè)發(fā)展的角度來看,當前AI領域已經(jīng)進入深度競爭階段。領先企業(yè)不僅在技術上持續(xù)投入,更在積極構建完整的生態(tài)系統(tǒng)。
相比之下,DeepSeek還顯得有些單薄。僅靠開源策略和技術創(chuàng)新,很難在激烈的市場競爭中建立持續(xù)的優(yōu)勢。如何將技術優(yōu)勢轉化為市場競爭力,如何建立可持續(xù)的商業(yè)模式,這些都是DeepSeek亟待解決的問題。
與此同時,DeepSeek這一系列方法本身也被反饋到了開源社區(qū)中,顯然后續(xù)還會有更多公司基于其技術和理論進一步向前發(fā)展。
更重要的是,我們需要重新思考對AI技術創(chuàng)新的態(tài)度。
在當前AI發(fā)展的熱潮中,過度追捧某個特定產(chǎn)品或技術方案是非常危險的信號。技術發(fā)展是一個漸進的過程,需要在不斷試錯和改進中尋找最優(yōu)解。過高的期待不僅可能給企業(yè)帶來不必要的壓力,還可能誤導整個行業(yè)的發(fā)展方向。
正如DAIR.AI創(chuàng)始人Elvis所說的:“所有對DeepSeek-R1的陰謀論和過度解讀都令人尷尬。我們應該回歸DeepSeek-R1的學術和 AI 應用,從研究者的角度看到強化學習的價值,從開發(fā)者的角度看到更強的模型能力和本地模型場景。
而不是讓這些虛假的敘事蒙蔽了你的眼睛,使你錯過了DeepSeek-R1所能帶來的價值和機遇。開源研究和開源精神依然蓬勃發(fā)展?!?/p>
這或許才是面對創(chuàng)新真正理性且審慎的態(tài)度——給予技術成長必要的時間和空間并專注于技術本身,而非在某種不知所以然的盲目對比中輕言勝負已分,或是將一次細分領域的技術演進與某種宏大敘事強行綁定。
對于DeepSeek而言,通過站在前人積累之上做出技術決策實現(xiàn)創(chuàng)新,本身就證明了其能力和價值。當下,整個開源社區(qū)的正面回應也肯定了這一正反饋的可行性。之后,其需要做的則是進一步拓寬其技術的衍生并不斷深化研究成果。
站在更宏觀的角度而言,DeepSeek則更多證明了AI技術的競爭與創(chuàng)新尚未迎來終局。
整個行業(yè)的創(chuàng)新也絕非僅僅通過囤積算力、無限資金就能完全形成壁壘。這也為更多中小型創(chuàng)業(yè)公司重新點燃了希望,畢竟誰也不希望AI行業(yè)早早變成如互聯(lián)網(wǎng)行業(yè)一樣“贏家通吃”的垃圾時間。