文 | 半導(dǎo)體產(chǎn)業(yè)縱橫
在AI時(shí)代,以數(shù)據(jù)為中心的工作負(fù)載需求持續(xù)攀升,現(xiàn)代服務(wù)器面臨著前所未有的挑戰(zhàn)。如何讓計(jì)算能力與內(nèi)存帶寬相匹配,成為了亟待解決的關(guān)鍵問(wèn)題。人工智能、高性能計(jì)算和實(shí)時(shí)分析等行業(yè)依賴(lài)于能夠以超快速度傳輸數(shù)據(jù)的內(nèi)存子系統(tǒng),以避免出現(xiàn)瓶頸。人工智能、高性能計(jì)算和實(shí)時(shí)分析等前沿行業(yè),對(duì)內(nèi)存子系統(tǒng)的數(shù)據(jù)傳輸速度提出了嚴(yán)苛要求,稍有延遲就可能導(dǎo)致性能瓶頸。
與此同時(shí),一種新型內(nèi)存技術(shù)——MRDIMM 橫空出世,迅速在行業(yè)內(nèi)掀起波瀾,它能否成為 AI 存儲(chǔ)產(chǎn)業(yè)的下一個(gè) “寵兒”?又將對(duì)內(nèi)存市場(chǎng)產(chǎn)生何種深遠(yuǎn)影響?
01 MRDIMM新型內(nèi)存出世
MRDIMM 的誕生并非一蹴而就,它的起源可以追溯到 DDR4 世代的 LRDIMM(Load Reduced DIMM,減載雙列直插內(nèi)存模塊)。LRDIMM 的設(shè)計(jì)初衷是為了減輕服務(wù)器內(nèi)存總線的負(fù)載,同時(shí)提升內(nèi)存的工作頻率與容量。與傳統(tǒng)的服務(wù)器內(nèi)存模組 RDIMM 僅采用 RCD(Registered Clock Driver,寄存時(shí)鐘器)不同,LRDIMM 創(chuàng)新性地加入了 DB(Data Buffer,數(shù)據(jù)緩沖器)功能。這一巧妙設(shè)計(jì)不僅降低了主板上的信號(hào)負(fù)載,還為使用更大容量的內(nèi)存顆粒創(chuàng)造了條件,進(jìn)而顯著擴(kuò)充了系統(tǒng)內(nèi)存容量。
在DDR4 世代,JEDEC 對(duì) LRDIMM 架構(gòu)進(jìn)行了多輪討論,最終,中國(guó)瀾起科技公司提出的 “1+9”(1 顆 RCD + 9 顆 DB)方案脫穎而出,成為 DDR4 LRDIMM 的國(guó)際標(biāo)準(zhǔn)。這一成就意義非凡,要知道,當(dāng)時(shí)全球僅有 IDT(后被日本瑞薩電子收購(gòu))、Rambus 和瀾起科技三家公司具備提供 RCD 及 DB 芯片套片的能力。或許正是基于以上契機(jī)和強(qiáng)大的研發(fā)實(shí)力,瀾起科技在 2021 年成功入選 JEDEC 董事會(huì),行業(yè)話語(yǔ)權(quán)得到進(jìn)一步提升。
進(jìn)入DDR5 世代,LRDIMM 的架構(gòu)演變?yōu)?“1 顆 RCD + 10 顆 DB”。然而,由于 DDR5 內(nèi)存模組容量大幅增加,DDR5 LRDIMM 的性?xún)r(jià)比優(yōu)勢(shì)逐漸縮小,在服務(wù)器內(nèi)存中的占比也不盡人意。此時(shí),MRDIMM 應(yīng)運(yùn)而生。它沿用了與 LRDIMM 類(lèi)似的 “1+10” 技術(shù)架構(gòu),即搭配 1 顆 MRCD(多路復(fù)用寄存時(shí)鐘驅(qū)動(dòng)器)芯片和 10 顆 MDB(多路復(fù)用數(shù)據(jù)緩沖器)芯片,能夠?qū)崿F(xiàn)更高的內(nèi)存帶寬,滿(mǎn)足現(xiàn)代服務(wù)器對(duì)內(nèi)存帶寬日益增長(zhǎng)的需求。
隨著CPU 核心數(shù)量和速度不斷提升,內(nèi)存必須以更快的速度提供數(shù)據(jù)。MRDIMM 通過(guò)同時(shí)操作兩個(gè)內(nèi)存通道,實(shí)現(xiàn)了比標(biāo)準(zhǔn) DDR5 DIMM 更高的數(shù)據(jù)吞吐量。簡(jiǎn)單來(lái)說(shuō),它就像是將兩個(gè) DDR5 DIMM 結(jié)合,向主機(jī)提供兩倍的數(shù)據(jù)速率。例如,將兩個(gè)速度為 4400MT/s 的 DDR5 DIMM 組合,輸出結(jié)果可達(dá) 8800MT/s。目前,第一代 MRDIMM 的速度可達(dá) 8800MT/s,第二代達(dá)到 12800MT/s。雖然預(yù)計(jì)未來(lái)幾代產(chǎn)品速度還會(huì)大幅提升,如第三代有望達(dá)到 17600MT/s,但可能要到 2030 年以后才能問(wèn)世,研發(fā)之路任重道遠(yuǎn)。
值得一提的是,英特爾與SK hynix、瑞薩合作,基于與 MRDIMM 類(lèi)似的概念開(kāi)發(fā)了多路復(fù)用器組合等級(jí)(MCR)DIMM。AMD 也在積極籌備類(lèi)似的 HBDIMM。不過(guò),目前尚無(wú)公開(kāi)資料對(duì) MCR DIMM 和 HBDIMM 進(jìn)行詳細(xì)比較。
此外,高尺寸(TFF)MRDIMM 具有獨(dú)特優(yōu)勢(shì),它無(wú)需增加物理插槽就能擴(kuò)充內(nèi)存容量。這類(lèi)模塊更高,可容納更多內(nèi)存芯片,不過(guò)僅適用于 2U 或更大尺寸的服務(wù)器設(shè)計(jì)。憑借更快、更高效的數(shù)據(jù)傳輸能力,MRDIMM 為面向未來(lái)的服務(wù)器設(shè)計(jì)提供了有力支持,助力其滿(mǎn)足高性能計(jì)算的需求。
02 “運(yùn)力”成為AI發(fā)展最大瓶頸
近年來(lái),服務(wù)器CPU 技術(shù)發(fā)展呈現(xiàn)出一個(gè)明顯趨勢(shì):CPU 廠商不斷增加內(nèi)核數(shù)量,核心數(shù)呈指數(shù)級(jí)增長(zhǎng)。英特爾和 AMD 最新一代 CPU 的核心數(shù)已達(dá)到數(shù)十甚至上百量級(jí)。與此同時(shí),自 2012 年起,數(shù)據(jù)中心服務(wù)器內(nèi)存對(duì)速度和容量的要求每年以超過(guò) 10 倍的速度增長(zhǎng),且絲毫沒(méi)有減緩的跡象??梢哉f(shuō),在過(guò)去十年里,“算力” 和 “存力” 都取得了前所未有的進(jìn)步。
然而,“內(nèi)存墻” 的存在卻成為了制約系統(tǒng)性能提升的關(guān)鍵因素。傳統(tǒng)內(nèi)存 RDIMM 傳輸帶寬的增長(zhǎng)較為緩慢,遠(yuǎn)遠(yuǎn)跟不上 CPU 核心數(shù)量指數(shù)級(jí)增加的速度。這也是 AMD 和英特爾在主流處理器上轉(zhuǎn)向 DDR5 內(nèi)存的重要原因之一。DDR5 市場(chǎng)也因此迎來(lái)了快速發(fā)展期。
如果這種情況持續(xù)下去,當(dāng)CPU 核心數(shù)量超過(guò)一定限度,就會(huì)出現(xiàn)帶寬分配不足的問(wèn)題,導(dǎo)致 CPU 無(wú)法充分發(fā)揮增加核心數(shù)量帶來(lái)的性能優(yōu)勢(shì),嚴(yán)重制約系統(tǒng)性能平衡,“內(nèi)存墻” 的負(fù)面影響愈發(fā)凸顯。
在美光和英特爾的聯(lián)合測(cè)試中,研究人員使用英特爾Hibench 基準(zhǔn)測(cè)試套件中的 2.4TB 數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)果顯示,在內(nèi)存容量相同的情況下,MRDIMM 的運(yùn)算效率相比 RDIMM 提高了 1.2 倍;使用容量翻倍的 TFF MRDIMM 時(shí),運(yùn)算效率更是提高了 1.7 倍,內(nèi)存與存儲(chǔ)之間的數(shù)據(jù)遷移減少了 10 倍。
在AI 推理方面,MRDIMM 同樣表現(xiàn)出色。以運(yùn)行 Meta Llama 3 8B 大模型為例,在內(nèi)存容量相同的條件下,使用 MRDIMM 后,詞元的吞吐量是 RDIMM 的 1.31 倍,延遲降低 24%,首個(gè)詞元生成時(shí)間降低 13%,CPU 利用效率提升 26%,末級(jí)緩存(LLC)延遲降低 20%。
MRDIMM 采用 DDR5 的物理和電氣標(biāo)準(zhǔn),實(shí)現(xiàn)了內(nèi)存技術(shù)的重要突破,有效擴(kuò)展了 CPU 單核心的帶寬和容量,極大地緩解了大算力時(shí)代 “內(nèi)存墻” 對(duì)系統(tǒng)性能的桎梏,對(duì)提升內(nèi)存密集型計(jì)算效率具有重要意義。隨著 AI 產(chǎn)業(yè)的蓬勃發(fā)展,DDR5 內(nèi)存接口芯片的需求和滲透率大幅提升。隨著支持 MRDIMM 的服務(wù)器 CPU 上市,第二子代 MRDIMM 有望成為高性能計(jì)算、人工智能等應(yīng)用系統(tǒng)的優(yōu)選方案。
03 行業(yè)巨頭推出相關(guān)產(chǎn)品
在此情況下,處理器和存儲(chǔ)設(shè)備巨頭開(kāi)始布局相關(guān)產(chǎn)品。
處理器方面,英特爾在2024 年 9 月推出了至強(qiáng) 6 性能核處理器,這款處理器專(zhuān)為高性能計(jì)算、AI 等計(jì)算密集型工作負(fù)載設(shè)計(jì),最高配備 128 個(gè)性能核,在 PCIe 通道、L3 緩存等方面進(jìn)行了諸多擴(kuò)展。其中,新型內(nèi)存技術(shù) MRDIMM 成為一大亮點(diǎn)。獨(dú)立測(cè)試表明,使用 MRDIMM 的至強(qiáng) 6 處理器,相比使用傳統(tǒng) RDIMM 的相同系統(tǒng),性能提升高達(dá) 33%。
AMD 也不甘示弱,其下一代 “Zen 6” 架構(gòu)的 EPYC 霄龍系列服務(wù)器處理器將遷移到新的 SP7 和 SP8 平臺(tái),告別現(xiàn)有的 SP5 和 SP6 平臺(tái)(分別支持 12 條和 6 條內(nèi)存通道)。新平臺(tái)中的 SP7 將提供 16 條和 12 條內(nèi)存通道兩種版本,以滿(mǎn)足更高的內(nèi)存帶寬需求,更好地支持更多核心的處理器。此外,“Zen 6” EPYC 處理器將首次支持 MRDIMM 內(nèi)存條,預(yù)計(jì)傳輸速率可達(dá) 12800MT/s 或更高。
存儲(chǔ)方面,2024年7月,美光宣布已出樣MRDIMM。該款全新內(nèi)存產(chǎn)品為美光 MRDIMM 系列的首代,將與英特爾至強(qiáng)6處理器兼容。
2024 年 10 月,Rambus 推出了面向 12800MT/s MRDIMM 的 MRCD、MDB 芯片,以及配套的第二代 DDR5 服務(wù)器 PMIC。Rambus 表示,其第二代 DDR5 服務(wù)器 PMIC 專(zhuān)為 DDR5 RDIMM 8000 和 MRDIMM 12800 設(shè)計(jì),能夠在低電壓下提供超高電流,以支持更高的內(nèi)存速率和每根內(nèi)存條上更多的 DRAM 和邏輯芯片。
2024 年 11 月,瑞薩電子率先推出面向第二代 DDR5 多容量雙列直插式內(nèi)存模塊(MRDIMM)的完整內(nèi)存接口芯片組解決方案。據(jù)瑞薩電子介紹,與第一代 MRDIMM 相比,這些產(chǎn)品的內(nèi)存帶寬提高了 1.35 倍,預(yù)計(jì) 2025 年實(shí)現(xiàn)量產(chǎn)。此次瑞薩設(shè)計(jì)并推出了三款全新關(guān)鍵組件:RRG50120 第二代多路復(fù)用寄存時(shí)鐘驅(qū)動(dòng)器(MRCD)、RRG51020 第二代多路復(fù)用數(shù)據(jù)緩沖器(MDB)和 RRG53220 第二代電源管理集成電路(PMIC)。此外,瑞薩還批量生產(chǎn)溫度傳感器(TS)和串行存在檢測(cè)(SPD)集線器解決方案,為各類(lèi)服務(wù)器和客戶(hù)端 DIMM,包括行業(yè)標(biāo)準(zhǔn)下一代 MRDIMM,提供全面的芯片組解決方案。
日前,Cadence 推出了業(yè)界首款 12800MT/s DDR5 MRDIMM 內(nèi)存 IP 系統(tǒng)方案。該方案包含高性能控制器和 PHY 物理層兩部分,基于臺(tái)積電 N3 制程工藝,已與基于美光 1-gamma 制程 DRAM 和瀾起第二子代 DDR5 MRDIMM 接口芯片構(gòu)建的 MRDIMM 內(nèi)存條完成配套兼容驗(yàn)證。
SK 海力士在臺(tái)積電北美技術(shù)論壇上,展示了三款面向先進(jìn)服務(wù)器、速度可達(dá) 12800MT/s 的 MRDIMM 產(chǎn)品:標(biāo)準(zhǔn)板型、基于 1c nm DRAM 的款式容量可達(dá) 64GB;采用傳統(tǒng)板型但基于更舊制程的型號(hào)容量可達(dá) 96GB;采用更高板型的產(chǎn)品容量則能進(jìn)一步拓展到 256GB。
國(guó)內(nèi)企業(yè)目前也開(kāi)始逐漸布局該技術(shù)。其中,瀾起科技進(jìn)展較快。經(jīng)過(guò)前期戰(zhàn)略布局和持續(xù)的研發(fā)投入,去年瀾起科技已完成時(shí)鐘發(fā)生器芯片量產(chǎn)版本研發(fā)。瀾起科技亦是全球兩家可提供第一子代MRCD/MDB芯片的供應(yīng)商之一,搭配公司的產(chǎn)品MRDIMM開(kāi)始在行業(yè)規(guī)模試用。但其他企業(yè)暫時(shí)進(jìn)度較慢,如德明利表示暫未布局 MRDIMM 相關(guān)產(chǎn)品方案研發(fā),僅保持對(duì)新技術(shù)、新產(chǎn)品形態(tài)的關(guān)注與探索。
04 MRDIMM與HBM或?qū)⒃贏I領(lǐng)域并存
第二子代MRDIMM 的數(shù)據(jù)傳輸速率達(dá)到 12800MT/s,相比第一子代提升了 45%,是第三子代 RDIMM(支持速率 6400MT/s)的兩倍,這無(wú)疑將大幅提升系統(tǒng)性能。在高性能計(jì)算、人工智能等對(duì)內(nèi)存帶寬需求較大的工作負(fù)載場(chǎng)景下,MRDIMM 有望成為應(yīng)用系統(tǒng)主內(nèi)存的優(yōu)選方案。而且,未來(lái)會(huì)有更多的服務(wù)器 CPU 平臺(tái)支持第二子代 MRDIMM,包括一些 ARM 架構(gòu)的 CPU 平臺(tái),這將進(jìn)一步完善 MRDIMM 的生態(tài),推動(dòng) MRDIMM 行業(yè)滲透率的提升以及 MRCD/MDB 芯片需求的增長(zhǎng)。
相比于HBM,MRDIMM在大容量、成本效益和可擴(kuò)展性方面都有優(yōu)勢(shì)。未來(lái),這兩項(xiàng)技術(shù)有望成為AI和高性能計(jì)算的主流內(nèi)存解決方案,進(jìn)一步推動(dòng)內(nèi)存市場(chǎng)的革新。不過(guò),DRAM內(nèi)存模組(包括DRAM和MRDIMM)屬于服務(wù)器主內(nèi)存,與HBM的應(yīng)用場(chǎng)景不同,分別有相對(duì)獨(dú)立的市場(chǎng)空間,二者都將受益于AI產(chǎn)業(yè)的發(fā)展,并非競(jìng)爭(zhēng)或替代關(guān)系。