文|半導(dǎo)體產(chǎn)業(yè)縱橫
近日,臺積電首季來自HPC營收貢獻(xiàn)達(dá)41%,首度超越手機(jī),成為最大營收來源。供應(yīng)鏈也傳出消息,英偉達(dá)內(nèi)部預(yù)計,數(shù)據(jù)中心HPC芯片業(yè)績年增長將達(dá)到200~250%左右,若進(jìn)度順利,最快2022年第3季初左右,采用5納米強化版的新產(chǎn)品可望問世。
長久以來,追求更高的算力一直是產(chǎn)業(yè)的主要創(chuàng)新方向。此前,國家發(fā)改委高技術(shù)司相關(guān)負(fù)責(zé)人預(yù)計,國內(nèi)每年的算力需求將保持在20%以上的增長速度。隨著對算力要求越來越高,超級計算中心的誕生正成為承載AI工作量的主流趨勢。
HPC芯片時代即將降臨。
HPC芯片市場需求旺盛
未來,科技發(fā)展將會產(chǎn)生極大的算力需求,英特爾預(yù)計到2025年將是1000x(千倍級)的提升,而四年內(nèi)增加1000倍相當(dāng)于摩爾定律的5次方。從新冠疫情的檢測到氣候變化、金融風(fēng)險分析和產(chǎn)品開發(fā),世界有很多重大且具有挑戰(zhàn)性的問題需要解決。HPC系統(tǒng)快速準(zhǔn)確的數(shù)據(jù)處理能力,以及人工智能和機(jī)器學(xué)習(xí)算法,通過分析、建模和模擬將海量數(shù)據(jù)轉(zhuǎn)化為可操作的見解。
HPC使用戶能夠比標(biāo)準(zhǔn)計算機(jī)更快地處理大量數(shù)據(jù),從而更快地獲得洞察,并使組織能夠在競爭中保持領(lǐng)先地位。HPC解決方案的運算速度是最快的筆記本速度的一百萬倍。
從Hyperion Research 2021對HPC市場跟蹤報告來看,2020和2021年全球線下服務(wù)器市場分別為137和140億美元,預(yù)測2022年將達(dá)到160億美元;從HPC集群規(guī)模細(xì)分來看,超算、分支、部門和工作組分別為59億、29億、38億和14億美元。
HPC誕生于內(nèi)部數(shù)據(jù)中心,但在2010年下半年,云計算開始改變HPC。該優(yōu)勢最近作為一種新的HPC部署平臺出現(xiàn)了。隨著高性能解決方案領(lǐng)域的擴(kuò)展,供應(yīng)商已經(jīng)開始提供混合選項?;旌系腍PC解決方案通常涉及補充現(xiàn)有內(nèi)部數(shù)據(jù)中心的云能力。
英特爾曾經(jīng)錯失了手機(jī)移動端SoC,被ARM反超;又在人工智能計算時代被英偉達(dá)的GPU反超。但是,英特爾這次推出的GPU目標(biāo)是能夠在人工智能訓(xùn)練領(lǐng)域有所成就。基于Xe HPC微架構(gòu)的數(shù)據(jù)中心GPU Ponte Vecchio是英特爾迄今最復(fù)雜的SoC,包含1000億個晶體管,提供領(lǐng)先的浮點運算和計算密度,以加速AI、HPC和高級分析工作負(fù)載。而英特爾推出的Ponte Vecchio是為Aurora超級計算機(jī)提供動力的處理器,Aurora超級計算機(jī)將會成為美國首批突破exaflop障礙的高性能計算機(jī)之一。
雖然,目前的GPU市場是AMD和英偉達(dá)的天下,但英特爾在GPU有很多技術(shù)積累。另外,未來計算架構(gòu)的發(fā)展趨勢是CPU和GPU融合集成,從而形成互聯(lián)、互補、互通的融合模式,以縮小計算和存儲單元的通信成本。作為在CPU領(lǐng)域引領(lǐng)多年的英特爾,在這一趨勢中也有著得天獨厚的優(yōu)勢。英特爾GPU的愿景也逐漸清晰:在計算多元化、算力需求爆發(fā)式增長的大趨勢下,英特爾GPU將成為驅(qū)動新興行業(yè)發(fā)展的算力基石,同時也將成為英特爾自身業(yè)務(wù)增長的突破點。
英偉達(dá)方面,得益于AI和圖形增長,X86 CPU衰落,以及數(shù)據(jù)中心計算規(guī)模增長,全球主要云計算提供商都在使用英偉達(dá)產(chǎn)品。TOP10有8臺和TOP500有342臺的超級計算機(jī)都是英偉達(dá)產(chǎn)品,22年該板塊營收為106.1億美元,5年復(fù)合年增長率為66%。
在數(shù)據(jù)中心市場,英偉達(dá)推出了針對大型HPC和云計算的高性能CPU——Grace。此前有媒體報道,英偉達(dá)的下一代Ada lovelace架構(gòu)的RTX 40系列GPU將采用臺積電5nm工藝。
在今年英偉達(dá)也再次加碼,收購Bright Computing。而縱觀Bright Computing,為HPC裝置銷售大規(guī)模集群管理軟件,其平臺支持x86和基于Arm的芯片以及英偉達(dá)的GPU,并且可以靈活地部署在數(shù)據(jù)中心、跨公共云或網(wǎng)絡(luò)邊緣。英偉達(dá)也表示此次收購將生產(chǎn)用于管理HPC系統(tǒng)的軟件。
AMD將在今年推進(jìn)5nm Zen 4架構(gòu)處理器的研發(fā)進(jìn)度,并且預(yù)計在2023年至2024年推出3nm Zen 5架構(gòu)處理器。對于先進(jìn)制程,英偉達(dá)、AMD率先發(fā)起搶單攻勢,爭搶坐上頭把交椅。
HPC分析公司 Hyperion Research的首席執(zhí)行官 Earl Joseph表示,他預(yù)計未來幾年基于 Arm 處理器的 HPC服務(wù)器將出現(xiàn)高速增長。
Arm 已經(jīng)在 HPC行業(yè)占據(jù)了一席之地。
在日本 RIKEN 實驗室的“Fugaku”超級計算機(jī) 以152064個48核排名世界第一的富士通A64FX處理器就是基于Arm架構(gòu)打造的。
“我們預(yù)計五年增長率將超過 31%,而基礎(chǔ)市場的增長率約為 7% 至 8%,”Joseph說。他補充說,這相當(dāng)于到 2025 年基于 Arm 的系統(tǒng)將占 HPC市場的 10% 左右。
HPC芯片帶動先進(jìn)封裝
隨著HPC需求的增大,臺積電HPC客戶需求也在增多,HPC在臺積電的營收占比中迅速提升,包括AMD和英偉達(dá)在內(nèi)的供應(yīng)商在其HPC處理器中采用了臺積電的CoWoS封裝。
實際上,2017年起臺積電也開始將InFO_oS技術(shù)應(yīng)用在HPC的芯片上,并進(jìn)入量產(chǎn)。臺積電推出的InFO_SoW先進(jìn)封裝技術(shù),是將HPC芯片在不需要基板及PCB情況下,直接與散熱模組整合在單一封裝中。應(yīng)用在人工智能推論芯片的InFO_MS技術(shù)已經(jīng)在2019年下半年認(rèn)證通過,可支持1倍光罩尺寸中介層及整合HBM2存儲器。蘋果的A系列處理器就是InFO_PoP封裝最大客戶。
在對HPC芯片封裝的進(jìn)程中,臺積電還推出支持超高運算效能HPC芯片的SoW封裝技術(shù)。SoW封裝技術(shù)的最大特點就是將包括芯片陣列、電源供應(yīng)、散熱模組等整合,利用高達(dá)6層路線重分布(RDL)制程技術(shù),將多顆芯片及電源分配功能連結(jié),再將其直接貼合在散熱模組上,如此就不需采用基板及PCB。
在HPC芯片封裝上,身為國際封測龍頭的日月光也不甘落后。有消息稱,日月光旗下的矽品有能力為HPC解決方案提供利用硅橋的封裝技術(shù),其扇出嵌入式橋(FO-EB)與英特爾和臺積電的硅橋產(chǎn)品相比已經(jīng)具有競爭力。憑借先進(jìn)的封裝能力,日月光已切入了美國一流服務(wù)器芯片公司的供應(yīng)鏈。
成為Chiplet的幕后推手
高性能計算應(yīng)用程序需要功能更強大的處理器,這些處理器可以處理大量工作負(fù)載以解決這些復(fù)雜問題,但是不會消耗太多能量。這就需要芯片設(shè)計同時達(dá)到高性能和低功耗,挑戰(zhàn)在于設(shè)備及其多核架構(gòu)如何將高帶寬密度與低延遲和高能效相結(jié)合。
非常大的芯片,例如 Cerebras Wafer-Scale Engine,為超大規(guī)模生產(chǎn)者提供了一種選擇。但從良率的角度來看,大型、先進(jìn)節(jié)點、單片芯片的生產(chǎn)成本高昂且具有挑戰(zhàn)性。從架構(gòu)的角度來看,所有超級計算機(jī)都是相似的。系統(tǒng)由大量機(jī)架組成,每個機(jī)架都包含許多計算節(jié)點。每個計算節(jié)點都有多個 CPU 和 GPU。傳統(tǒng)上,這些芯片中的許多都是大型且復(fù)雜的片上系統(tǒng) (SoC) 設(shè)備,其中所有功能都集成在一個單片芯片上。
但實際上,作為一種先進(jìn)的封裝技術(shù),Chiplet提供了一個潛在的答案,可以在滿足這些對 HPC芯片飛速發(fā)展的性能需求。
小芯片是小芯片,當(dāng)集成到單個封裝中時,會形成更大的多芯片設(shè)計。通過將較大的設(shè)計劃分為小芯片,設(shè)計人員可以獲得產(chǎn)品模塊化和靈活性的好處。即使是在不同工藝節(jié)點上開發(fā)的單獨芯片,也可以組裝到一個封裝中,以滿足不同的細(xì)分市場或需求。與大型單片芯片相比,它們也更容易制造并產(chǎn)生更好的產(chǎn)量。
至于小芯片封裝,有多種選擇來支持更高的晶體管密度,包括多芯片模塊(MCM)、2.5D 和 3D 技術(shù)。作為系統(tǒng)級封裝 (SiP) 的最早類型,MCM已經(jīng)有幾十年的歷史了。MCM 將至少兩個 IC 通過引線鍵合連接在一個單一的封裝中。2.5D設(shè)計包括GPU和高帶寬內(nèi)存(HBM)并排組裝在單個封裝中的中介層上。盡管邏輯沒有堆疊,但在某些2.5D設(shè)計中,HBM由3D堆疊內(nèi)存組成,從而將3D內(nèi)容帶入2.5D設(shè)計。在3D封裝中,異質(zhì)管芯垂直堆疊并通過硅通孔(TSV)連接,該架構(gòu)為非??斓膬?nèi)存訪問帶寬鋪平了道路。
HPC設(shè)計通常使用各種封裝類型的小芯片。MCM是更小、低功耗設(shè)計的理想選擇。2.5D設(shè)計適用于人工智能(AI)工作負(fù)載,因為與HBM緊密連接的GPU在計算能力和內(nèi)存容量方面提供了強大的組合。3DIC 具有垂直堆疊的 CPU 和快速的內(nèi)存訪問,是一般 HPC工作負(fù)載的理想選擇。
Hyperion Research 研究高級副總裁 Bob Sorensen 說,“所以從理論上講,小芯片只是單個封裝中多個裸片的最新化身。但是小芯片可以讓 HPC設(shè)計人員構(gòu)建具有最適合 HPC預(yù)期工作負(fù)載的精確計算、內(nèi)存和 I/O 功能的處理器?!?/p>
邁入百億億次時代
現(xiàn)在,不同國家正在相互競爭,積極部署基于小芯片的百億億次超級計算機(jī),這是一種比當(dāng)今超級計算機(jī)快1000倍的新型系統(tǒng)。中國、歐洲、日本和美國一直在開發(fā)Exascale級的超級計算機(jī),每秒執(zhí)行10億次計算。美國還在開發(fā)另外兩臺百億億級超級計算機(jī),包括正在阿貢國家實驗室建造的Aurora。Aurora是圍繞英特爾的服務(wù)器處理器和GPU構(gòu)建的。
對于百億億級超級計算機(jī),F(xiàn)rontier、El Capitan和Aurora系統(tǒng)已經(jīng)開始采用基于Chiplet的解決方案。
邁入百億億次時代,HPC芯片的戰(zhàn)場再次吹響號角。