文|融中財(cái)經(jīng) 鄭偉
編輯|吾人
全球范圍內(nèi),“百模大戰(zhàn)”不斷升級(jí),高端AI算力卡成為“硬通貨”。以英偉達(dá)為例,依據(jù)當(dāng)前訂單情況和生產(chǎn)進(jìn)度,現(xiàn)階段的A800/H800交貨時(shí)間都已經(jīng)排到了今年年底與明年年初。英偉達(dá)(Nvidia)徹底“贏麻了”,也一度掀起資本追逐人工智能芯片的熱潮。
近日,位于硅谷的人工智能芯片初創(chuàng)公司D-Matrix就成功收獲1.1億美元(約合8.02億元人民幣)的B輪融資。此次融資領(lǐng)投方是新加坡頭部投資集團(tuán)淡馬錫(Temasek),微軟、三星等知名科技巨頭以及加州Playround Global等眾多風(fēng)險(xiǎn)投資公司則紛紛跟投。此前,D-Matrix亦曾受到來(lái)自Marvell、海力士、愛(ài)立信等知名科技企業(yè)的投資。
01 進(jìn)擊中的D-Matrix
成立于2019年的D-Matrix,是一家為滿(mǎn)足數(shù)據(jù)中心高性能計(jì)算和人工智能算力而組建的芯片初創(chuàng)企業(yè),此前一直專(zhuān)注于定制AI芯片的研發(fā)。其使命是憑借創(chuàng)新性的“數(shù)字存算一體(DIMC)”架構(gòu),來(lái)解決計(jì)算-存儲(chǔ)集成問(wèn)題,從而提高人工智能算力的效率。
D-Matrix由兩位經(jīng)驗(yàn)豐富的AI硬件專(zhuān)家Sid Sheth(創(chuàng)始人兼首席執(zhí)行官)和Sudeep Bhoja(創(chuàng)始人兼首席技術(shù)官)領(lǐng)導(dǎo)。兩位創(chuàng)始人在半導(dǎo)體領(lǐng)域有著超過(guò)20年的從業(yè)經(jīng)歷,曾在半導(dǎo)體巨頭博通擔(dān)任過(guò)總監(jiān)職位,并在國(guó)際半導(dǎo)體公司Inphi(現(xiàn)已被Marvell收購(gòu))擔(dān)任過(guò)高管職位。
業(yè)績(jī)方面,D-Matrix已經(jīng)出貨了超過(guò)1億顆芯片,收益突破了10億美元(約合72.92億元人民幣)。根據(jù)著名數(shù)據(jù)分析公司Crunchbase的調(diào)查顯示,D-Matrix現(xiàn)僅擁有11-50名員工。盡管員工數(shù)量相對(duì)較少,但自從OpenAI憑借ChatGPT成功擊敗Google之后,此類(lèi)以少勝多的情況似乎變得更為常見(jiàn)了。
通過(guò)“數(shù)字存算一體”架構(gòu),D-Matrix的芯片能夠確保高效的AI代碼運(yùn)行,簡(jiǎn)化數(shù)據(jù)處理流程,并實(shí)現(xiàn)對(duì)生成式AI(AIGC)需求的無(wú)縫響應(yīng)。這些經(jīng)過(guò)優(yōu)化后的AI定制芯片,可以為OpenAI的ChatGPT等AIGC應(yīng)用提供最佳的算力支持,這也是D-Matrix的市場(chǎng)潛力所在。
不過(guò),為了在現(xiàn)階段避免與英偉達(dá)的直接競(jìng)爭(zhēng),D-Matrix的技術(shù)瞄準(zhǔn)了人工智能處理的“推理”部分,而不是AI大模型的訓(xùn)練部分。AI推理階段,是指利用訓(xùn)練好的模型,通過(guò)輸入新數(shù)據(jù)來(lái)推理出各種結(jié)論的過(guò)程。借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行計(jì)算,利用輸入的新數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。這也過(guò)程也被稱(chēng)為預(yù)測(cè)或推斷。
一般來(lái)說(shuō),根據(jù)承擔(dān)任務(wù)的不同,AI芯片可被分為訓(xùn)練AI芯片和推理AI芯片。其中,訓(xùn)練芯片被用于構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,注重絕對(duì)的計(jì)算能力。在此領(lǐng)域,英偉達(dá)占據(jù)了強(qiáng)勢(shì)的市場(chǎng)主導(dǎo)地位。據(jù)最新數(shù)據(jù)顯示,在全球AI訓(xùn)練芯片市場(chǎng),英偉達(dá)可占到80%到95%份額。而推理芯片,則是利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推理預(yù)測(cè),產(chǎn)品往往更注重綜合指標(biāo),如單位能耗算力、時(shí)延、成本等各方面表現(xiàn)都要考慮。D-Matrix主打的就是后者。
對(duì)于此次融資,D-Matrix創(chuàng)始人兼首席執(zhí)行官Sid Sheth向媒體表示,D-Matrix計(jì)劃將新資金投資于旗艦產(chǎn)品Corsair平臺(tái)的商業(yè)化和人才招募。該平臺(tái)是一款PCI外形的算力卡,采用DIMC架構(gòu)和芯粒(Chiplet)技術(shù),其創(chuàng)新性地支持將AI模型完全存儲(chǔ)于內(nèi)存中,可有效提高推理效率,并降低功耗和成本。
Corsair平臺(tái)參數(shù)(圖片來(lái)自于www.d-matrix.ai)
Corsair計(jì)劃于2024年全面推出,其可以與機(jī)器學(xué)習(xí)工具鏈和相關(guān)服務(wù)器軟件配合使用。這些軟件主要由開(kāi)源軟件構(gòu)建。用戶(hù)只需簡(jiǎn)單操作,即可快速將AI模型導(dǎo)入到卡中,無(wú)需重新訓(xùn)練。
02 PK英偉達(dá)最強(qiáng)GPU,性能超9倍
盡管GPU在游戲和“挖礦(生產(chǎn)加密貨幣)”方面表現(xiàn)出色,但對(duì)于AIGC來(lái)說(shuō),并非都是最佳選擇。比如運(yùn)行AI推理時(shí),往往需要大量特定的內(nèi)存帶寬,而GPU的大部分時(shí)間處于空閑狀態(tài),只是等待更多數(shù)據(jù)從DRAM中傳輸出來(lái)。這就為AI推理設(shè)置了性能上限,不僅讓吞吐量降低,延遲也會(huì)增加,同時(shí)還需要額外能量來(lái)提高功率和冷卻成本。截至目前上述情況仍未有太大的變化,很多企業(yè)仍然依靠堆大量的GPU去做AI訓(xùn)練和推理,導(dǎo)致成本負(fù)擔(dān)高企。
以O(shè)penAI為例,就身陷有熱度、沒(méi)收入的囧地。有報(bào)告指出,ChatGPT每天要燒錢(qián)約70萬(wàn)美元(約合509.65萬(wàn)元人民幣),而這個(gè)數(shù)字還不包括招募和支付頂尖人才的薪資費(fèi)用。以這樣的燒錢(qián)速度算,OpenAI甚至難以維持到明年年底。
OpenAI后續(xù)具體如何規(guī)劃尚未可知,D-Matrix卻早已為AI推理的降費(fèi)增效謀劃了新路徑。D-Matrix的旗艦產(chǎn)品Corsair C8卡包括2048個(gè)DIMC內(nèi)核、1300億個(gè)晶體管和256GB LPDDR5 RAM。它擁有2400至9600 TFLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))的計(jì)算性能,芯片間帶寬為1TB/s。憑借在計(jì)算架構(gòu)、電源能耗和低延遲軟件堆棧方面的創(chuàng)新突破,D-Matrix的Corsair C8在實(shí)際測(cè)試中擊敗了Nvidia H100,吞吐量超越了9倍,而運(yùn)行成本則降低了10倍至20倍,甚至在某些情況下可以降低60倍。
實(shí)測(cè)中Corsair C8吞吐量超越Nvidia H100的9倍(圖片來(lái)自于www.d-matrix.ai)
舉個(gè)例子,如果有人想使用LLaMA2生成與維基百科一樣多的內(nèi)容,她需要生成57億個(gè)詞元(Tokens)才能最終達(dá)到維基百科43億個(gè)單詞的量級(jí)。但是通過(guò)使用D-Matrix解決方案的單個(gè)推理節(jié)點(diǎn),AI大模型可以在18小時(shí)內(nèi)產(chǎn)出整個(gè)維基百科的數(shù)據(jù)量。
如果將 D-Matrix 技術(shù)與微軟低代碼強(qiáng)化學(xué)習(xí)平臺(tái) Project Bonsai 相結(jié)合,甚至還可以圍繞 DIMC平臺(tái)創(chuàng)建高效編譯器。Project Bonsai提供了訓(xùn)練有素的RL代理的快速原型設(shè)計(jì)、測(cè)試和部署,以加速編譯器堆棧的開(kāi)發(fā)過(guò)程。同時(shí),結(jié)合D-Matrix的低功耗AI推理技術(shù),該技術(shù)可提供比舊架構(gòu)高出10倍的能效,使得編譯器的性能得到顯著提升。
Sid Sheth表示:“目前由于推理成本較高,生成式人工智能在商業(yè)上的應(yīng)用仍面臨著挑戰(zhàn),但是通過(guò)新的資金注入,我們將能夠比其他競(jìng)爭(zhēng)對(duì)手更快地將商業(yè)上可行的解決方案推向市場(chǎng)。”
微軟作為D-Matrix的投資方,表示將在明年采用D-Matrix的AI芯片到相關(guān)業(yè)務(wù)上,以緩解算力不足的問(wèn)題。有機(jī)構(gòu)預(yù)測(cè),未來(lái)兩年內(nèi),D-Matrix的年收入有望達(dá)到70~75萬(wàn)美元(約合509.65~546.05萬(wàn)元人民幣)。
03 大魚(yú)吃小魚(yú),小魚(yú)未必找得到蝦米
今年,像D-Matrix這樣幸運(yùn)地拿到融資的美國(guó)芯片初創(chuàng)公司,實(shí)際上已是少數(shù)。隨著英偉達(dá)在AI芯片市場(chǎng)上主導(dǎo)地位日益顯現(xiàn),相關(guān)領(lǐng)域的芯片初創(chuàng)企業(yè)的日子并不好過(guò),融資時(shí)遭遇挑戰(zhàn)更是家常便飯。數(shù)據(jù)統(tǒng)計(jì),在2023年第二季度,芯片領(lǐng)域初創(chuàng)公司在美國(guó)的融資交易數(shù)量上較2022年同期暴降了80%。
對(duì)于芯片初創(chuàng)公司來(lái)說(shuō),將芯片從最初的設(shè)計(jì)階段推進(jìn)到商用階段,可能至少需要超過(guò)5億美元(約合36.41億元人民幣)的投資,而一旦出現(xiàn)投資者無(wú)法履約或者撤資,將快速切斷這些初創(chuàng)公司的現(xiàn)金流,導(dǎo)致生存危機(jī)。對(duì)于投資者來(lái)說(shuō),此類(lèi)芯片初創(chuàng)公司不僅投資回報(bào)周期長(zhǎng),風(fēng)險(xiǎn)還極高,所以在全球經(jīng)濟(jì)低迷的大環(huán)境下,往往更不愿大量投入資金。
根據(jù)風(fēng)險(xiǎn)資本調(diào)研公司PitchBook的數(shù)據(jù)顯示,截至今年8月底,美國(guó)的芯片初創(chuàng)企業(yè)僅僅融資8.814億美元,而在2022年的前三個(gè)季度為17.9億美元。交易數(shù)量也從23宗降至4宗。
以AI芯片初創(chuàng)公司Mythic為例,此前共融資約1.6億美元,但到2022年時(shí),現(xiàn)金已消耗殆盡,公司運(yùn)營(yíng)面臨停擺。所幸在今年3月份,該公司成功獲得了新的投資,盡管只有1300萬(wàn)美元。
Mythic首席執(zhí)行官Dave Rick表示,英偉達(dá)“間接”加劇了整個(gè)AI芯片行業(yè)的融資困境,因?yàn)橥顿Y者往往期待“投資那些回報(bào)豐厚的項(xiàng)目”。而英偉達(dá)的一家獨(dú)大,疊加全球經(jīng)濟(jì)消極影響因素,讓周期性的半導(dǎo)體行業(yè)雪上加霜。
有芯片從業(yè)人員指出,現(xiàn)階段想融資愈發(fā)艱難,投資者會(huì)提出更為嚴(yán)苛的要求。比如公司需要至少擁有一種成熟產(chǎn)品,這個(gè)產(chǎn)品要么已經(jīng)在市場(chǎng)上銷(xiāo)售,要么有能力在幾個(gè)月內(nèi)發(fā)布。另外,在融資金額方面也大不如前。今年以來(lái),對(duì)芯片初創(chuàng)公司的金額僅在1億美元左右,而在2年前,對(duì)于芯片初創(chuàng)企業(yè)的新投資往往能夠達(dá)到2億或3億美金。
而如D-Matrix這樣的創(chuàng)業(yè)公司似乎也不敢同英偉達(dá)正面硬剛,選擇了AI推理芯片賽道一樣?!爸挥猩贁?shù)公司真正有機(jī)會(huì)與英偉達(dá)競(jìng)爭(zhēng),”正如業(yè)內(nèi)分析師Karl Freund表示?!癉-Matrix 就是其中之一。他們使用不同的技術(shù)、不同的架構(gòu),似乎可以產(chǎn)生更好的結(jié)果?!?/p>
04 存算一體受青睞,國(guó)內(nèi)玩家知多少
實(shí)際上,D-Matrix備受關(guān)注的原因,一方面是面向AI推理的性能優(yōu)勢(shì),另一方面采用了更加適合AI計(jì)算的存算一體理念。而“存算一體”并不是近幾年才被提出的新概念。早在上個(gè)世紀(jì)70年代,存算一體就已經(jīng)被提出,只是受限于當(dāng)時(shí)的芯片制造技術(shù)和算力需求,這一設(shè)想僅停留在理論研究階段。直到進(jìn)入大數(shù)據(jù)和人工智能時(shí)代,巨大的算力需求為存算一體架構(gòu)的發(fā)展提供了新的舞臺(tái)。
當(dāng)前,市面上的傳統(tǒng)芯片普遍都采用馮諾依曼架構(gòu)。該架構(gòu)的特點(diǎn)是將處理單元和存儲(chǔ)單元分開(kāi),需要進(jìn)行計(jì)算時(shí),處理單元從存儲(chǔ)單元中讀取數(shù)據(jù)進(jìn)行處理,處理完成后再將數(shù)據(jù)返回存儲(chǔ)單元。然而,存算一體架構(gòu)將存儲(chǔ)單元和處理單元合二為一,將數(shù)據(jù)和計(jì)算融合在同一片區(qū)域內(nèi)。這樣做的好處是可以直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理,從根本上消除了馮諾依曼架構(gòu)計(jì)算存儲(chǔ)分離的問(wèn)題。尤其在現(xiàn)代大數(shù)據(jù)和大規(guī)模并行的應(yīng)用場(chǎng)景中,存算一體架構(gòu)非常適用。
目前,國(guó)內(nèi)外很多企業(yè)紛紛展開(kāi)存算一體技術(shù)的研發(fā),其中包括英特爾、IBM、華為、三星、阿里巴巴、SK海力士、美光、臺(tái)積電等一眾知名公司,幾乎都在積極布局近存計(jì)算領(lǐng)域。據(jù)不完全統(tǒng)計(jì),A股市場(chǎng)中涉及存算一體技術(shù)的公司,包括東芯股份、恒爍股份、羅普特、首都在線、長(zhǎng)電科技、瀾起科技和潤(rùn)欣科技等。同時(shí),國(guó)內(nèi)初創(chuàng)公司如千芯科技、億鑄科技、知存科技、蘋(píng)芯科技和后摩智能等均獲資本市場(chǎng)青睞,其中多家更是連續(xù)兩年獲得融資支持。
以千芯科技為例,就已擁有面向數(shù)據(jù)中心的大算力計(jì)算板卡和計(jì)算IP核,以及多并發(fā)實(shí)例核心技術(shù)(該技術(shù)NVIDIA在2019年集成入GPU)。其可支持ARM核心Stacking,具備輕量GPU技術(shù),可基于SRAM/RRAM/MARM存儲(chǔ)單元,可為客戶(hù)提供靈活易用的AI推理計(jì)算加速及一站式解決方案。通過(guò)千芯科技自研存算一體技術(shù),可提供能效比超過(guò)10-100TOPS/W,優(yōu)于其他類(lèi)型AI芯片 10-40倍的吞吐量支持。
盡管全球范圍內(nèi)無(wú)論學(xué)術(shù)界還是工業(yè)界都開(kāi)始對(duì)存算一體展開(kāi)資源投入,但在大模型火起來(lái)之前,存算一體的研究還是相對(duì)零散的技術(shù)攻關(guān),缺乏面向大算力方向的整體布局,亦缺乏主導(dǎo)的應(yīng)用需求驅(qū)動(dòng),因此距離大規(guī)模進(jìn)入市場(chǎng)或許還需要一定的時(shí)間。
不過(guò)令人期待的是,大模型已然成為存算一體大算力芯片的核心應(yīng)用場(chǎng)景,而它對(duì)算力能效和密度有強(qiáng)烈需求,這正是存算一體的優(yōu)勢(shì)所在。為了面向大模型的部署,芯片從業(yè)者更需要對(duì)存算一體進(jìn)行體系化布局,包括算法、框架、編譯器、工具鏈、指令集、架構(gòu)、電路等各個(gè)層次方面的協(xié)同設(shè)計(jì),以形成全棧式的體系、工具鏈和生態(tài)鏈。相信隨著存算一體芯片技術(shù)的進(jìn)一步落地應(yīng)用,AI大模型必將獲得新的性能飛躍,從而推動(dòng)數(shù)智化時(shí)代的加速到來(lái)。