正在閱讀:

CPU+GPU異構(gòu)計(jì)算成芯片巨頭新寵

掃一掃下載界面新聞APP

CPU+GPU異構(gòu)計(jì)算成芯片巨頭新寵

英特爾宣布將在未來(lái)一年半內(nèi)取消多款服務(wù)器GPU產(chǎn)品的發(fā)布計(jì)劃,其中包括HPC級(jí)的Rialto Bridge GPU,以全力開(kāi)發(fā)基于Falcon Shores的混合芯片。

文|半導(dǎo)體產(chǎn)業(yè)縱橫

近年來(lái),隨著AI應(yīng)用的快速發(fā)展,引發(fā)一場(chǎng)算力革命,異構(gòu)計(jì)算也站在風(fēng)口浪尖。

異構(gòu)計(jì)算主要是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。常見(jiàn)的計(jì)算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。目前“CPU+GPU”以及“CPU+FPGA”都是受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。

近日,英特爾宣布將在未來(lái)一年半內(nèi)取消多款服務(wù)器GPU產(chǎn)品的發(fā)布計(jì)劃,其中包括HPC級(jí)的Rialto Bridge GPU,以全力開(kāi)發(fā)基于Falcon Shores的混合芯片。英特爾新一代Falcon Shores 專為超級(jí)計(jì)算應(yīng)用而設(shè)計(jì),將CPU和GPU技術(shù)結(jié)合到一個(gè)芯片封裝中,屆時(shí)將作為純GPU架構(gòu)面世。

值得注意的是,AMD 的Instinct MI300和英偉達(dá)的Grace Hopper超級(jí)芯片也是采用“CPU+GPU”的異構(gòu)形式。

01、CPU與GPU的區(qū)別

CPU即中央處理器(Central Processing Unit),作為計(jì)算機(jī)系統(tǒng)的運(yùn)算和控制核心,主要負(fù)責(zé)多任務(wù)管理、調(diào)度,具有很強(qiáng)的通用性,是計(jì)算機(jī)的核心領(lǐng)導(dǎo)部件,好比人的大腦。不過(guò)其計(jì)算能力并不強(qiáng),更擅長(zhǎng)邏輯控制。

GPU即圖形處理器(Graphics Processing Unit),采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,擅長(zhǎng)進(jìn)行圖像處理、并行計(jì)算。對(duì)于復(fù)雜的單個(gè)計(jì)算任務(wù)來(lái)說(shuō),CPU 的執(zhí)行效率更高,通用性更強(qiáng);對(duì)于圖形圖像這種矩陣式多像素點(diǎn)的簡(jiǎn)單計(jì)算,更適合用 GPU 來(lái)處理。AI 領(lǐng)域中用于圖像識(shí)別的深度學(xué)習(xí)、用于決策和推理的機(jī)器學(xué)習(xí)以及超級(jí)計(jì)算都需要大規(guī)模的并行計(jì)算,因此更適合采用 GPU 架構(gòu)。

多核 CPU 與 GPU 的計(jì)算網(wǎng)格(圖中綠色方格為計(jì)算單元)

CPU和GPU還有一個(gè)很大的區(qū)別就是:CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要處理大量類型統(tǒng)一的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。但GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。

02、CPU+GPU架構(gòu)的優(yōu)勢(shì)及應(yīng)用

當(dāng)CPU和GPU協(xié)同工作時(shí),因?yàn)?CPU 包含幾個(gè)專為串行處理而優(yōu)化的核心,而 GPU 則由數(shù)以千計(jì)更小、更節(jié)能的核心組成,這些核心專為提供強(qiáng)勁的并行運(yùn)算性能而設(shè)計(jì)。程序的串行部分在 CPU 上運(yùn)行,而并行部分則在 GPU上運(yùn)行。GPU 已經(jīng)發(fā)展到成熟階段,可輕松執(zhí)行現(xiàn)實(shí)生活中的各種應(yīng)用程序,而且程序運(yùn)行速度已遠(yuǎn)遠(yuǎn)超過(guò)使用多核系統(tǒng)時(shí)的情形。因此,CPU和GPU的結(jié)合剛好可以解決深度學(xué)習(xí)模型訓(xùn)練在CPU上耗時(shí)長(zhǎng)的問(wèn)題,提升深度學(xué)習(xí)模型的訓(xùn)練效率。

隨著CPU與GPU的結(jié)合,其相較于單獨(dú)CPU與GPU的應(yīng)用場(chǎng)景也不斷拓寬。

第一,CPU+GPU架構(gòu)適用于處理高性能計(jì)算。伴隨著高性能計(jì)算類應(yīng)用的發(fā)展,驅(qū)動(dòng)算力需求不斷攀升,但目前單一計(jì)算類型和架構(gòu)的處理器已經(jīng)無(wú)法處理更復(fù)雜、更多樣的數(shù)據(jù)。數(shù)據(jù)中心如何在增強(qiáng)算力和性能的同時(shí),具備應(yīng)對(duì)多類型任務(wù)的處理能力,成為全球性的技術(shù)難題。CPU+GPU的異構(gòu)并行計(jì)算架構(gòu)作為高性能計(jì)算的一種主流解決方案,受到廣泛關(guān)注。

第二,CPU+GPU架構(gòu)適用于處理數(shù)據(jù)中心產(chǎn)生的海量數(shù)據(jù)。數(shù)據(jù)爆炸時(shí)代來(lái)臨,使用單一架構(gòu)來(lái)處理數(shù)據(jù)的時(shí)代已經(jīng)過(guò)去。比如:個(gè)人互聯(lián)網(wǎng)用戶每天產(chǎn)生約1GB數(shù)據(jù),智能汽車每天約50GB,智能醫(yī)院每天約3TB數(shù)據(jù),智慧城市每天約50PB數(shù)據(jù)。數(shù)據(jù)的數(shù)量和多樣性以及數(shù)據(jù)處理的地點(diǎn)、時(shí)間和方式也在迅速變化。無(wú)論工作任務(wù)是在邊緣還是在云中,不管是人工智能工作任務(wù)還是存儲(chǔ)工作任務(wù),都需要有正確的架構(gòu)和軟件來(lái)充分利用這些特點(diǎn)。

第三,CPU+GPU架構(gòu)可以共享內(nèi)存空間,消除冗余內(nèi)存副本來(lái)改善問(wèn)題。在此前的技術(shù)中,雖然GPU和CPU已整合到同一個(gè)芯片上,但是芯片在運(yùn)算時(shí)要定位內(nèi)存的位置仍然得經(jīng)過(guò)繁雜的步驟,這是因?yàn)镃PU和GPU的內(nèi)存池仍然是獨(dú)立運(yùn)作。為了解決兩者內(nèi)存池獨(dú)立的運(yùn)算問(wèn)題,當(dāng)CPU程式需要在GPU上進(jìn)行部分運(yùn)算時(shí),CPU都必須從CPU的內(nèi)存上復(fù)制所有的資料到GPU的內(nèi)存上,而當(dāng)GPU上的運(yùn)算完成時(shí),這些資料還得再?gòu)?fù)制回到CPU內(nèi)存上。然而,將CPU與GPU放入同一架構(gòu),就能夠消除冗余內(nèi)存副本來(lái)改善問(wèn)題,處理器不再需要將數(shù)據(jù)復(fù)制到自己的專用內(nèi)存池來(lái)訪問(wèn)/更改該數(shù)據(jù)。統(tǒng)一內(nèi)存池還意味著不需要第二個(gè)內(nèi)存芯片池,即連接到CPU的DRAM。

因此,通過(guò)CPU+GPU異構(gòu)并行計(jì)算架構(gòu)組成的服務(wù)器,正成為服務(wù)器市場(chǎng)中的一匹黑馬?,F(xiàn)在已有多家芯片廠商開(kāi)始跟進(jìn)。

03、芯片巨頭的香餑餑?

英特爾的Falcon Shores

英特爾的Falcon Shores XPU專為超級(jí)計(jì)算應(yīng)用而設(shè)計(jì),其將CPU和GPU合并到一個(gè)混合匹配芯片包中。Falcon Shores代表了英特爾異構(gòu)架構(gòu)設(shè)計(jì)的延續(xù),其最終目標(biāo)是每瓦性能提高5倍,x86插槽計(jì)算密度提高5倍以及現(xiàn)有服務(wù)器芯片的內(nèi)存容量和帶寬提高5倍。英特爾的高性能計(jì)算CPU和GPU路線圖與Falcon Shores匯合,表明這些芯片將在未來(lái)同時(shí)發(fā)揮這兩個(gè)作用。

英特爾超級(jí)計(jì)算集團(tuán)副總裁兼總經(jīng)理杰夫·麥克維(Jeff McVeigh)說(shuō),延遲推出的Falcon Shores將在2025年首次推出GPU內(nèi)核,但尚未表明何時(shí)將CPU內(nèi)核集成到設(shè)計(jì)中。因此,英特爾以HPC為中心的設(shè)計(jì)將落后于競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)年。

英偉達(dá)的Grace Hopper超級(jí)芯片

2021年,英偉達(dá)推出解決HPC和大規(guī)模人工智能應(yīng)用程序的Grace Hopper超級(jí)芯片。這是一款完全專為大規(guī)模 AI 和高性能計(jì)算應(yīng)用打造的突破性加速 CPU。它通過(guò)英偉達(dá) NVLink-C2C 技術(shù)將 Grace 和 Hopper 架構(gòu)相結(jié)合,為加速 AI 和 HPC 應(yīng)用提供 CPU+GPU 相結(jié)合的一致內(nèi)存模型。

英偉達(dá)官方表示,使用NVLink-C2C互連,Grace CPU將數(shù)據(jù)傳輸?shù)紿opper GPU的速度比傳統(tǒng)CPU快15倍。另外,采用CPU+GPU的Grace Hopper核心數(shù)減半,LPDDR5X內(nèi)存也只有512GB,但多了顯卡的80GB HBM3內(nèi)存,總帶寬可達(dá)3.5TB/s,代價(jià)是功耗1000W,每個(gè)機(jī)架容納42個(gè)節(jié)點(diǎn)。

英偉達(dá)Grace Hopper超級(jí)芯片計(jì)劃于2023年上半年推出。

AMD的 Instinct MI300

在近日的 CES 2023 展會(huì)上,AMD 披露了面向下一代數(shù)據(jù)中心的 APU 加速卡產(chǎn)品 Instinct MI300。這顆芯片采用多芯片、多IP整合封裝設(shè)計(jì),5nm先進(jìn)制造工藝,晶體管數(shù)量多達(dá)1460億個(gè)。它同時(shí)集成CDNA3架構(gòu)的GPU單元(具體核心數(shù)量未公開(kāi))、Zen4架構(gòu)的24個(gè)CPU核心、大容量的Infinity Cache無(wú)限緩存,還有8192-bit位寬、128GB容量的HBM3高帶寬內(nèi)存。

在技術(shù)方面,MI300支持第四代Infinity Fabric總線、CXL 3.0總線、統(tǒng)一內(nèi)存架構(gòu)、新的數(shù)學(xué)計(jì)算格式,號(hào)稱AI性能比上代提升多達(dá)8倍,可滿足百億億次計(jì)算需求。

AMD CEO蘇姿豐近日確認(rèn),Instinct MI300將在今年下半年正式推出。

英特爾的Falcon Shores XPU是與英偉達(dá)的Grace Hopper 超級(jí)芯片和AMD Instinct MI300數(shù)據(jù)中心APU競(jìng)爭(zhēng)的關(guān)鍵。英偉達(dá)的Grace和AMD的MI300都將于今年推出。值得注意的是,三家均選擇了Chiplet技術(shù)。

04、未來(lái)押注超異構(gòu)計(jì)算

關(guān)于異構(gòu)計(jì)算,英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)曾表示:“在2023年,大家已經(jīng)完全接受了要通過(guò)異構(gòu)計(jì)算解決未來(lái)系統(tǒng)的設(shè)計(jì)和優(yōu)化問(wèn)題。在2020年的時(shí)候,市場(chǎng)還在討論異構(gòu)集成是怎么一回事。而在2023年,大家都會(huì)基于功能的有效性、設(shè)計(jì)的難易程度、成本等方面的考量,自覺(jué)采用異構(gòu)計(jì)算的方式?!?/p>

關(guān)于對(duì)當(dāng)下的算力演進(jìn)方向的新判斷,宋繼強(qiáng)還提到:“傳統(tǒng)異構(gòu)計(jì)算并不能滿足現(xiàn)在計(jì)算的要求。而“超異構(gòu)計(jì)算”,已逐漸成為業(yè)界思考的一個(gè)趨勢(shì)”。

從實(shí)際來(lái)看,英特爾也確實(shí)正在押注“超異構(gòu)計(jì)算”這條道路。

英特爾提出的“超異構(gòu)計(jì)算”概念,在一定程度上可以理解為通過(guò)封裝技術(shù)所實(shí)現(xiàn)的模塊級(jí)系統(tǒng)集成,即通過(guò)先進(jìn)封裝技術(shù)將多個(gè)Chiplet裝配到一個(gè)封裝模塊當(dāng)中,既簡(jiǎn)化了SOC的復(fù)雜技術(shù),更加靈活,又避免了PCB板級(jí)集成的性能和功耗瓶頸。

英特爾的“超異構(gòu)計(jì)算”路線以“Foveros”3D封裝技術(shù)為基礎(chǔ)。相比SiP只能實(shí)現(xiàn)邏輯芯片與內(nèi)存的集成,“Foveros”可以在邏輯芯片與邏輯芯片之間實(shí)現(xiàn)真正的三維集成,使得芯片面積更小,同時(shí)保證芯片間的帶寬更大、速度更快、功耗更低。

不過(guò),英特爾的“超異構(gòu)計(jì)算”的創(chuàng)新之處并不僅局限于3D封裝這一個(gè)層面。事實(shí)上,在制程、架構(gòu)、內(nèi)存、互連、安全、軟件等多個(gè)層面均具有領(lǐng)先優(yōu)勢(shì)?!俺悩?gòu)計(jì)算”的實(shí)現(xiàn)是建立在整合其多層面技術(shù)優(yōu)勢(shì)基礎(chǔ)上的。

除了英特爾之外,英偉達(dá)也已經(jīng)在執(zhí)行層面全面行動(dòng)。英偉達(dá)在云、網(wǎng)、邊、端等復(fù)雜計(jì)算場(chǎng)景,基本上都有重量級(jí)的產(chǎn)品和非常清晰的迭代路線圖。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

英特爾

6.3k
  • 科技早報(bào)|純血鴻蒙系統(tǒng)正式發(fā)布;OPPO收購(gòu)大模型創(chuàng)業(yè)公司波形智能
  • Solidigm:根據(jù)相關(guān)協(xié)議,明年一季度結(jié)束前不再制造、出貨貼有英特爾標(biāo)簽的產(chǎn)品

英偉達(dá)

6.7k
  • 英偉達(dá)或于12月宣布在泰國(guó)投資計(jì)劃
  • 機(jī)構(gòu):英偉達(dá)將Blackwell Ultra產(chǎn)品更名為B300系列,預(yù)計(jì)2025年將推動(dòng)CoWoS-L增長(zhǎng)

AMD

4.7k
  • 三大芯片巨頭同時(shí)現(xiàn)身聯(lián)想大會(huì),IT產(chǎn)業(yè)格局正在改變
  • 英特爾和AMD宣布組建X86生態(tài)系統(tǒng)咨詢小組

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

CPU+GPU異構(gòu)計(jì)算成芯片巨頭新寵

英特爾宣布將在未來(lái)一年半內(nèi)取消多款服務(wù)器GPU產(chǎn)品的發(fā)布計(jì)劃,其中包括HPC級(jí)的Rialto Bridge GPU,以全力開(kāi)發(fā)基于Falcon Shores的混合芯片。

文|半導(dǎo)體產(chǎn)業(yè)縱橫

近年來(lái),隨著AI應(yīng)用的快速發(fā)展,引發(fā)一場(chǎng)算力革命,異構(gòu)計(jì)算也站在風(fēng)口浪尖。

異構(gòu)計(jì)算主要是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。常見(jiàn)的計(jì)算單元類別包括CPU、GPU、DSP、ASIC、FPGA等。目前“CPU+GPU”以及“CPU+FPGA”都是受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。

近日,英特爾宣布將在未來(lái)一年半內(nèi)取消多款服務(wù)器GPU產(chǎn)品的發(fā)布計(jì)劃,其中包括HPC級(jí)的Rialto Bridge GPU,以全力開(kāi)發(fā)基于Falcon Shores的混合芯片。英特爾新一代Falcon Shores 專為超級(jí)計(jì)算應(yīng)用而設(shè)計(jì),將CPU和GPU技術(shù)結(jié)合到一個(gè)芯片封裝中,屆時(shí)將作為純GPU架構(gòu)面世。

值得注意的是,AMD 的Instinct MI300和英偉達(dá)的Grace Hopper超級(jí)芯片也是采用“CPU+GPU”的異構(gòu)形式。

01、CPU與GPU的區(qū)別

CPU即中央處理器(Central Processing Unit),作為計(jì)算機(jī)系統(tǒng)的運(yùn)算和控制核心,主要負(fù)責(zé)多任務(wù)管理、調(diào)度,具有很強(qiáng)的通用性,是計(jì)算機(jī)的核心領(lǐng)導(dǎo)部件,好比人的大腦。不過(guò)其計(jì)算能力并不強(qiáng),更擅長(zhǎng)邏輯控制。

GPU即圖形處理器(Graphics Processing Unit),采用數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,擅長(zhǎng)進(jìn)行圖像處理、并行計(jì)算。對(duì)于復(fù)雜的單個(gè)計(jì)算任務(wù)來(lái)說(shuō),CPU 的執(zhí)行效率更高,通用性更強(qiáng);對(duì)于圖形圖像這種矩陣式多像素點(diǎn)的簡(jiǎn)單計(jì)算,更適合用 GPU 來(lái)處理。AI 領(lǐng)域中用于圖像識(shí)別的深度學(xué)習(xí)、用于決策和推理的機(jī)器學(xué)習(xí)以及超級(jí)計(jì)算都需要大規(guī)模的并行計(jì)算,因此更適合采用 GPU 架構(gòu)。

多核 CPU 與 GPU 的計(jì)算網(wǎng)格(圖中綠色方格為計(jì)算單元)

CPU和GPU還有一個(gè)很大的區(qū)別就是:CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要處理大量類型統(tǒng)一的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。但GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。

02、CPU+GPU架構(gòu)的優(yōu)勢(shì)及應(yīng)用

當(dāng)CPU和GPU協(xié)同工作時(shí),因?yàn)?CPU 包含幾個(gè)專為串行處理而優(yōu)化的核心,而 GPU 則由數(shù)以千計(jì)更小、更節(jié)能的核心組成,這些核心專為提供強(qiáng)勁的并行運(yùn)算性能而設(shè)計(jì)。程序的串行部分在 CPU 上運(yùn)行,而并行部分則在 GPU上運(yùn)行。GPU 已經(jīng)發(fā)展到成熟階段,可輕松執(zhí)行現(xiàn)實(shí)生活中的各種應(yīng)用程序,而且程序運(yùn)行速度已遠(yuǎn)遠(yuǎn)超過(guò)使用多核系統(tǒng)時(shí)的情形。因此,CPU和GPU的結(jié)合剛好可以解決深度學(xué)習(xí)模型訓(xùn)練在CPU上耗時(shí)長(zhǎng)的問(wèn)題,提升深度學(xué)習(xí)模型的訓(xùn)練效率。

隨著CPU與GPU的結(jié)合,其相較于單獨(dú)CPU與GPU的應(yīng)用場(chǎng)景也不斷拓寬。

第一,CPU+GPU架構(gòu)適用于處理高性能計(jì)算。伴隨著高性能計(jì)算類應(yīng)用的發(fā)展,驅(qū)動(dòng)算力需求不斷攀升,但目前單一計(jì)算類型和架構(gòu)的處理器已經(jīng)無(wú)法處理更復(fù)雜、更多樣的數(shù)據(jù)。數(shù)據(jù)中心如何在增強(qiáng)算力和性能的同時(shí),具備應(yīng)對(duì)多類型任務(wù)的處理能力,成為全球性的技術(shù)難題。CPU+GPU的異構(gòu)并行計(jì)算架構(gòu)作為高性能計(jì)算的一種主流解決方案,受到廣泛關(guān)注。

第二,CPU+GPU架構(gòu)適用于處理數(shù)據(jù)中心產(chǎn)生的海量數(shù)據(jù)。數(shù)據(jù)爆炸時(shí)代來(lái)臨,使用單一架構(gòu)來(lái)處理數(shù)據(jù)的時(shí)代已經(jīng)過(guò)去。比如:個(gè)人互聯(lián)網(wǎng)用戶每天產(chǎn)生約1GB數(shù)據(jù),智能汽車每天約50GB,智能醫(yī)院每天約3TB數(shù)據(jù),智慧城市每天約50PB數(shù)據(jù)。數(shù)據(jù)的數(shù)量和多樣性以及數(shù)據(jù)處理的地點(diǎn)、時(shí)間和方式也在迅速變化。無(wú)論工作任務(wù)是在邊緣還是在云中,不管是人工智能工作任務(wù)還是存儲(chǔ)工作任務(wù),都需要有正確的架構(gòu)和軟件來(lái)充分利用這些特點(diǎn)。

第三,CPU+GPU架構(gòu)可以共享內(nèi)存空間,消除冗余內(nèi)存副本來(lái)改善問(wèn)題。在此前的技術(shù)中,雖然GPU和CPU已整合到同一個(gè)芯片上,但是芯片在運(yùn)算時(shí)要定位內(nèi)存的位置仍然得經(jīng)過(guò)繁雜的步驟,這是因?yàn)镃PU和GPU的內(nèi)存池仍然是獨(dú)立運(yùn)作。為了解決兩者內(nèi)存池獨(dú)立的運(yùn)算問(wèn)題,當(dāng)CPU程式需要在GPU上進(jìn)行部分運(yùn)算時(shí),CPU都必須從CPU的內(nèi)存上復(fù)制所有的資料到GPU的內(nèi)存上,而當(dāng)GPU上的運(yùn)算完成時(shí),這些資料還得再?gòu)?fù)制回到CPU內(nèi)存上。然而,將CPU與GPU放入同一架構(gòu),就能夠消除冗余內(nèi)存副本來(lái)改善問(wèn)題,處理器不再需要將數(shù)據(jù)復(fù)制到自己的專用內(nèi)存池來(lái)訪問(wèn)/更改該數(shù)據(jù)。統(tǒng)一內(nèi)存池還意味著不需要第二個(gè)內(nèi)存芯片池,即連接到CPU的DRAM。

因此,通過(guò)CPU+GPU異構(gòu)并行計(jì)算架構(gòu)組成的服務(wù)器,正成為服務(wù)器市場(chǎng)中的一匹黑馬?,F(xiàn)在已有多家芯片廠商開(kāi)始跟進(jìn)。

03、芯片巨頭的香餑餑?

英特爾的Falcon Shores

英特爾的Falcon Shores XPU專為超級(jí)計(jì)算應(yīng)用而設(shè)計(jì),其將CPU和GPU合并到一個(gè)混合匹配芯片包中。Falcon Shores代表了英特爾異構(gòu)架構(gòu)設(shè)計(jì)的延續(xù),其最終目標(biāo)是每瓦性能提高5倍,x86插槽計(jì)算密度提高5倍以及現(xiàn)有服務(wù)器芯片的內(nèi)存容量和帶寬提高5倍。英特爾的高性能計(jì)算CPU和GPU路線圖與Falcon Shores匯合,表明這些芯片將在未來(lái)同時(shí)發(fā)揮這兩個(gè)作用。

英特爾超級(jí)計(jì)算集團(tuán)副總裁兼總經(jīng)理杰夫·麥克維(Jeff McVeigh)說(shuō),延遲推出的Falcon Shores將在2025年首次推出GPU內(nèi)核,但尚未表明何時(shí)將CPU內(nèi)核集成到設(shè)計(jì)中。因此,英特爾以HPC為中心的設(shè)計(jì)將落后于競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)年。

英偉達(dá)的Grace Hopper超級(jí)芯片

2021年,英偉達(dá)推出解決HPC和大規(guī)模人工智能應(yīng)用程序的Grace Hopper超級(jí)芯片。這是一款完全專為大規(guī)模 AI 和高性能計(jì)算應(yīng)用打造的突破性加速 CPU。它通過(guò)英偉達(dá) NVLink-C2C 技術(shù)將 Grace 和 Hopper 架構(gòu)相結(jié)合,為加速 AI 和 HPC 應(yīng)用提供 CPU+GPU 相結(jié)合的一致內(nèi)存模型。

英偉達(dá)官方表示,使用NVLink-C2C互連,Grace CPU將數(shù)據(jù)傳輸?shù)紿opper GPU的速度比傳統(tǒng)CPU快15倍。另外,采用CPU+GPU的Grace Hopper核心數(shù)減半,LPDDR5X內(nèi)存也只有512GB,但多了顯卡的80GB HBM3內(nèi)存,總帶寬可達(dá)3.5TB/s,代價(jià)是功耗1000W,每個(gè)機(jī)架容納42個(gè)節(jié)點(diǎn)。

英偉達(dá)Grace Hopper超級(jí)芯片計(jì)劃于2023年上半年推出。

AMD的 Instinct MI300

在近日的 CES 2023 展會(huì)上,AMD 披露了面向下一代數(shù)據(jù)中心的 APU 加速卡產(chǎn)品 Instinct MI300。這顆芯片采用多芯片、多IP整合封裝設(shè)計(jì),5nm先進(jìn)制造工藝,晶體管數(shù)量多達(dá)1460億個(gè)。它同時(shí)集成CDNA3架構(gòu)的GPU單元(具體核心數(shù)量未公開(kāi))、Zen4架構(gòu)的24個(gè)CPU核心、大容量的Infinity Cache無(wú)限緩存,還有8192-bit位寬、128GB容量的HBM3高帶寬內(nèi)存。

在技術(shù)方面,MI300支持第四代Infinity Fabric總線、CXL 3.0總線、統(tǒng)一內(nèi)存架構(gòu)、新的數(shù)學(xué)計(jì)算格式,號(hào)稱AI性能比上代提升多達(dá)8倍,可滿足百億億次計(jì)算需求。

AMD CEO蘇姿豐近日確認(rèn),Instinct MI300將在今年下半年正式推出。

英特爾的Falcon Shores XPU是與英偉達(dá)的Grace Hopper 超級(jí)芯片和AMD Instinct MI300數(shù)據(jù)中心APU競(jìng)爭(zhēng)的關(guān)鍵。英偉達(dá)的Grace和AMD的MI300都將于今年推出。值得注意的是,三家均選擇了Chiplet技術(shù)。

04、未來(lái)押注超異構(gòu)計(jì)算

關(guān)于異構(gòu)計(jì)算,英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)曾表示:“在2023年,大家已經(jīng)完全接受了要通過(guò)異構(gòu)計(jì)算解決未來(lái)系統(tǒng)的設(shè)計(jì)和優(yōu)化問(wèn)題。在2020年的時(shí)候,市場(chǎng)還在討論異構(gòu)集成是怎么一回事。而在2023年,大家都會(huì)基于功能的有效性、設(shè)計(jì)的難易程度、成本等方面的考量,自覺(jué)采用異構(gòu)計(jì)算的方式。”

關(guān)于對(duì)當(dāng)下的算力演進(jìn)方向的新判斷,宋繼強(qiáng)還提到:“傳統(tǒng)異構(gòu)計(jì)算并不能滿足現(xiàn)在計(jì)算的要求。而“超異構(gòu)計(jì)算”,已逐漸成為業(yè)界思考的一個(gè)趨勢(shì)”。

從實(shí)際來(lái)看,英特爾也確實(shí)正在押注“超異構(gòu)計(jì)算”這條道路。

英特爾提出的“超異構(gòu)計(jì)算”概念,在一定程度上可以理解為通過(guò)封裝技術(shù)所實(shí)現(xiàn)的模塊級(jí)系統(tǒng)集成,即通過(guò)先進(jìn)封裝技術(shù)將多個(gè)Chiplet裝配到一個(gè)封裝模塊當(dāng)中,既簡(jiǎn)化了SOC的復(fù)雜技術(shù),更加靈活,又避免了PCB板級(jí)集成的性能和功耗瓶頸。

英特爾的“超異構(gòu)計(jì)算”路線以“Foveros”3D封裝技術(shù)為基礎(chǔ)。相比SiP只能實(shí)現(xiàn)邏輯芯片與內(nèi)存的集成,“Foveros”可以在邏輯芯片與邏輯芯片之間實(shí)現(xiàn)真正的三維集成,使得芯片面積更小,同時(shí)保證芯片間的帶寬更大、速度更快、功耗更低。

不過(guò),英特爾的“超異構(gòu)計(jì)算”的創(chuàng)新之處并不僅局限于3D封裝這一個(gè)層面。事實(shí)上,在制程、架構(gòu)、內(nèi)存、互連、安全、軟件等多個(gè)層面均具有領(lǐng)先優(yōu)勢(shì)?!俺悩?gòu)計(jì)算”的實(shí)現(xiàn)是建立在整合其多層面技術(shù)優(yōu)勢(shì)基礎(chǔ)上的。

除了英特爾之外,英偉達(dá)也已經(jīng)在執(zhí)行層面全面行動(dòng)。英偉達(dá)在云、網(wǎng)、邊、端等復(fù)雜計(jì)算場(chǎng)景,基本上都有重量級(jí)的產(chǎn)品和非常清晰的迭代路線圖。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。