正在閱讀:

800億晶體管開啟新一輪堆料大戰(zhàn)

掃一掃下載界面新聞APP

800億晶體管開啟新一輪堆料大戰(zhàn)

“堆料”極限如何突破?

文|半導體產(chǎn)業(yè)縱橫

1947年12月23日,世界上第一個晶體管誕生。晶體管的出現(xiàn)就好像宇宙的第一次爆炸。如同大爆炸帶來的萬千星球,75年間世界上晶體管的數(shù)量不斷增長。

從一個晶體管到在一片芯片上集成800億個晶體管,當芯片以摩爾預測的那樣成倍增長,“堆料”成為各個大廠實現(xiàn)性能差異化的必選之路。

那么百億級晶體管給產(chǎn)品性能帶來了多少提升?隨著摩爾定律的開始放緩,“堆料”的難度越來越高,芯片公司又該如何突破極限?

高性能處理器的”堆料”大戰(zhàn)

3月22日,英偉達介紹了新Hopper GPU 架構與H100 GPU。這款被稱為核彈級更新的新品將容納800億個晶體管,成為當下性能最強大的GPU。在發(fā)布會上,英偉達CEO黃仁勛表示,20塊H100 GPU就可以承托全球互聯(lián)網(wǎng)的流量。

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達到128GB/s的速度,是PCIe 4.0的2倍。

內(nèi)存方面,H100還將默認支持80GB的HBM3內(nèi)存,帶寬為3 TB/s,比A100的HBM2E 快 1.5 倍。性能方面,H100可提供高達FP64/FP32 60TFlops,F(xiàn)P162000TFlops,TF32 1000TFlops,都三倍于A100,F(xiàn)P8 4000TFlops,六倍于A100。

炸場的不只是新一代GPU,還有英偉達的數(shù)據(jù)中心CPU Grace。Grace是兩個Grace CPU封裝的,總計144個CPU內(nèi)核(基于ARMv9指令集),緩存容量396MB,支持LPDDR5X ECC內(nèi)存,通過每秒 900 GB 的 NVLink 芯片到芯片互連將 144 個計算核心彼此連通,內(nèi)存帶寬則為每秒 1 TB。

Grace CPU Superchip 使用 Arm v9并且該芯片使用 Neoverse N2 設計。Neoverse N2 平臺是 Arm 首個支持新發(fā)布的 Arm v9 擴展的IP,其性能比V1 平臺高出 40%。N2 Perseus平臺采用5nm設計,支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看,Grace CPU Superchip的兩個CPU和板載內(nèi)存都消耗500W的峰值功率。

而就在3月9日,蘋果在春季發(fā)布會上也推出了讓人眼前一亮的超級新品M1 Ultra,這款芯片包括20個CPU內(nèi)核,其中16個是注重性能的Firestorm核心,4個注重效率的Icestorm核心。新的SoC由1140億個晶體管組成,可配置高達128GB的高帶寬、低延遲統(tǒng)一內(nèi)存,可通過20核CPU、64核GPU和32核神經(jīng)引擎訪問,比使用帶有Afterburner的28核Mac Pro快5.6倍。

“堆料”=性能?

英特爾1971年發(fā)布4004處理器,擁有2250個晶體管;1979年8088投入生產(chǎn),包含29000個晶體管的芯片;

1986年MIPS計算機系統(tǒng)公司發(fā)布第一個商業(yè)化的RISC體系結構包含11萬個晶體管;

數(shù)字設備公司(DEC)于1994年發(fā)布Alpha 21164包含930萬個晶體管;

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個晶體管,同時開啟多核時代;

2014年IBM的Power8包含了12個核心,有96個線程裝有42億個晶體管;

......

而我們回看世界上第一款商用微處理器,英特爾4004,這款51年前誕生的產(chǎn)品在3mm*4mm的面積上集成了2300個晶體管,采用五層設計、10微米制程。而這款處理器的最初的主頻是108KHz,最高時脈有740KHz,能執(zhí)行4位元運算,支援8位元指令集及12位元位址集,使用10.8微秒和21.6微秒運行周期。

晶體管數(shù)量的增加讓性能提升了多少呢?包含2300個晶體管的英特爾4004在使用10.8微秒運行周期時,可以每秒運算9萬次。作為對比,包含800億晶體管的H100最高可支持每秒4000萬億次的浮點計算。我們可以看到晶體管數(shù)量與性能明顯的正相關,這也是為何所有領先的芯片公司都在晶體管數(shù)量上下足功夫。

然而當每一場新開的發(fā)布會都在刷新大眾對晶體管數(shù)量的認知的同時,“堆料”的光環(huán)逐漸褪去。一部分人認為,對于領先的芯片設計商,“堆料”顯得簡單粗暴。對于個人用戶,很難100%地利用所有晶體管帶來的性能提升。更多時候,“堆料”對于芯片廠商的意義是保持市場地位。以熱衷堆料的蘋果為例,蘋果在最新的手機處理器上集成了150億個晶體管,采用6核CPU、4/5核GPU,讓CPU性能領先競爭對手50%,4/5核CPU性能實現(xiàn)30%/50%的領先。但對于使用iPhone 12的用戶來說,這些數(shù)字似乎意義有限。

可以看到,芯片性能的發(fā)展史也是晶體管數(shù)量的變遷史。但隨著晶體管數(shù)量的增長,摩爾定律的放緩已經(jīng)肉眼可見。對于頂尖大廠來說,找尋增加晶體管數(shù)量之外的“卷法”也成為了當務之急。

“堆料”極限如何突破?

Chiplet技術

小芯片(Chiplet)技術被視為延緩半導體摩爾定律的解方,它的概念其實很簡單就是硅片級別重用。將一個芯片組成的處理器劃分為多個芯片,分別是:數(shù)據(jù)存儲、計算、信號處理、數(shù)據(jù)流管理等功能,然后再將它們連接在一起形成一個小芯片的芯片網(wǎng)絡。

Marvell創(chuàng)始人周秀文博士在ISSCC2015大會上提出了提出Mochi架構的概念,他認為Mochi可成為諸多應用的基礎架構。而AMD在2019年通過采用Chiplet技術,應用于在Ryzen和EPYC處理器。使用7nm的Zen2 CPU內(nèi)核的CPU性能比前代產(chǎn)品提高了15%。

除了Chiplet技術可以將大型7nm設計的成本降低高達25%;在5nm及更先進的制程的設計中,節(jié)省的成本更大。

芯原股份創(chuàng)始人、董事長兼總裁戴偉民曾表示,對于產(chǎn)業(yè)來說,在標準與生態(tài)層次上,Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng);對于芯片設計來說,降低了大規(guī)模芯片設計的門檻。

英特爾、AMD、Arm、臺積電和三星等眾多行業(yè)巨頭推出了新的通用小芯片互連高速 (UCIe) 聯(lián)盟,其目標是通過開放的芯片間互連標準化小芯片之間的互連設計。從而降低成本并培育更廣泛的經(jīng)過驗證的小芯片生態(tài)系統(tǒng)。

最后,UCIe 標準旨在與其他連接標準(如 USB、PCIe 和 NVMe)一樣普遍,同時為小芯片連接提供卓越的功率和性能指標。值得注意的是,所有三個領先的代工廠都將采用這項技術,以及 x86 和 Arm 生態(tài)系統(tǒng)。這是隨著摩爾定律的減弱,芯片制造商正在共同努力解決越來越困難的縮放。

在英偉達的新品上,支持UCIe的NVlink連接技術就起到重要的作用。兩個 Grace CPU 通過 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進行通信。這種互連技術支持低延遲內(nèi)存一致性,允許連接的設備同時在同一個內(nèi)存池上工作。NVLink-C2C可提供高達 25 倍的能效和 90 倍的面積效率,支持高達 900 GB/s 或更高的吞吐量。同時通過支持多種類型的聯(lián)機,Grace可實現(xiàn)從 PCB 的互連到硅中介層和晶圓級的互連。

互連技術除了提高芯片性能,還可以降低成本和并支持在單個封裝中使用不同類型的工藝節(jié)點。

先進封裝

當實際芯片的密度仍以每3年約2倍的速度增長,摩爾定律的放緩已經(jīng)肉眼可見。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡,但這些問題大多與數(shù)據(jù)的輸入和輸出有關。

芯片上數(shù)據(jù)的輸入和輸出(IO)是計算的命脈。將內(nèi)存放在芯片上有助于通過減少通信開銷來減少IO需求。小芯片技術雖然能滿足一部分需求,但它不是孤立的解決方案。隨著每個晶體管的成本的上升,設計成本飆升,由于需要更多IO來與其他芯片接口,但IO的限制讓部分芯片無法拆分,因此芯片尺寸仍在達到峰值。

先進封裝就成為了解決這方面問題的方法。蘋果的M1 Ultra就通過2.5D先進封裝實現(xiàn)性能超越。UltraFusion是蘋果將兩個M1 Max裸片鏈接的方法。通過將兩個M1 Max裸片封裝到一起,蘋果使他們可以使用的硬件數(shù)量翻了一番。兩倍的CPU內(nèi)核、兩倍的GPU內(nèi)核、兩倍的神經(jīng)引擎內(nèi)核、兩倍的LPDDR5內(nèi)存通道以及兩倍的外圍設備I/O。

英特爾則選擇在單個基板中可以有許多嵌入式橋接,根據(jù)需要在多個裸片之間提供極高的 I/O 和良好控制的電氣互連路徑,即EMIB封裝實現(xiàn)芯片性能的提升。

可以看到封裝、架構種種因素在性能提升上的重要性越來越高。

“堆料”是大廠逃不過的內(nèi)卷?

雖然業(yè)界對“堆料”的褒貶不一,但現(xiàn)實仍是,可以不止于堆料,但不能不堆料。而堆料也不僅僅是形容在處理器上增加晶體管,廣義上講堆料還包括各種硬件廠商,如主板廠、手機廠為了尋求差異化,也在產(chǎn)品上增加大量的頂尖配件。

隨著汽車智能化程度的提高,汽車廠商也在用”堆料”來吸引客戶。Aquila蔚來超感系統(tǒng)配備了33個高性能感知硬件,包括1個超遠距高精度激光雷達、7顆800萬像素高清攝像頭、4顆300萬像素高感光環(huán)視專用攝像頭、1個增強主駕感知、5個毫米波雷達、12個超聲波傳感器、2個高精度定位單元和V2X車路協(xié)同。

如果是自動駕駛是智能汽車廠商們的終極目標,顯然這一配置并不足夠。更何況自動駕駛需要的不止是汽車廠商們的突破,對交通系統(tǒng)、城市網(wǎng)聯(lián)等方面都有著很高的要求。但汽車廠商們還是在為產(chǎn)品增加非必要的配件。

換句話說,“堆料”就像是各硬件廠商的一場內(nèi)卷。既然逃不過,就只能加入。

不過就算是內(nèi)卷,也有不同的卷法。汽車行業(yè)中,特斯拉就選擇通過優(yōu)化傳感器組合、控制傳感器數(shù)量,算法改進等各種手段,充分發(fā)揮單個傳感器的最佳性能,而非單純的增加配件。

如果說“堆料”是一場競爭始終無法避免,可以確定的是最終決定勝負的“料”一定不止一面。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

英特爾

6.2k
  • OpenAI已討論開發(fā)一款人形機器人
  • 科技早報|特朗普贊成TikTok繼續(xù)在美運營;OpenAI新模型GPT-5研發(fā)遇阻

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

800億晶體管開啟新一輪堆料大戰(zhàn)

“堆料”極限如何突破?

文|半導體產(chǎn)業(yè)縱橫

1947年12月23日,世界上第一個晶體管誕生。晶體管的出現(xiàn)就好像宇宙的第一次爆炸。如同大爆炸帶來的萬千星球,75年間世界上晶體管的數(shù)量不斷增長。

從一個晶體管到在一片芯片上集成800億個晶體管,當芯片以摩爾預測的那樣成倍增長,“堆料”成為各個大廠實現(xiàn)性能差異化的必選之路。

那么百億級晶體管給產(chǎn)品性能帶來了多少提升?隨著摩爾定律的開始放緩,“堆料”的難度越來越高,芯片公司又該如何突破極限?

高性能處理器的”堆料”大戰(zhàn)

3月22日,英偉達介紹了新Hopper GPU 架構與H100 GPU。這款被稱為核彈級更新的新品將容納800億個晶體管,成為當下性能最強大的GPU。在發(fā)布會上,英偉達CEO黃仁勛表示,20塊H100 GPU就可以承托全球互聯(lián)網(wǎng)的流量。

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達到128GB/s的速度,是PCIe 4.0的2倍。

內(nèi)存方面,H100還將默認支持80GB的HBM3內(nèi)存,帶寬為3 TB/s,比A100的HBM2E 快 1.5 倍。性能方面,H100可提供高達FP64/FP32 60TFlops,F(xiàn)P162000TFlops,TF32 1000TFlops,都三倍于A100,F(xiàn)P8 4000TFlops,六倍于A100。

炸場的不只是新一代GPU,還有英偉達的數(shù)據(jù)中心CPU Grace。Grace是兩個Grace CPU封裝的,總計144個CPU內(nèi)核(基于ARMv9指令集),緩存容量396MB,支持LPDDR5X ECC內(nèi)存,通過每秒 900 GB 的 NVLink 芯片到芯片互連將 144 個計算核心彼此連通,內(nèi)存帶寬則為每秒 1 TB。

Grace CPU Superchip 使用 Arm v9并且該芯片使用 Neoverse N2 設計。Neoverse N2 平臺是 Arm 首個支持新發(fā)布的 Arm v9 擴展的IP,其性能比V1 平臺高出 40%。N2 Perseus平臺采用5nm設計,支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看,Grace CPU Superchip的兩個CPU和板載內(nèi)存都消耗500W的峰值功率。

而就在3月9日,蘋果在春季發(fā)布會上也推出了讓人眼前一亮的超級新品M1 Ultra,這款芯片包括20個CPU內(nèi)核,其中16個是注重性能的Firestorm核心,4個注重效率的Icestorm核心。新的SoC由1140億個晶體管組成,可配置高達128GB的高帶寬、低延遲統(tǒng)一內(nèi)存,可通過20核CPU、64核GPU和32核神經(jīng)引擎訪問,比使用帶有Afterburner的28核Mac Pro快5.6倍。

“堆料”=性能?

英特爾1971年發(fā)布4004處理器,擁有2250個晶體管;1979年8088投入生產(chǎn),包含29000個晶體管的芯片;

1986年MIPS計算機系統(tǒng)公司發(fā)布第一個商業(yè)化的RISC體系結構包含11萬個晶體管;

數(shù)字設備公司(DEC)于1994年發(fā)布Alpha 21164包含930萬個晶體管;

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個晶體管,同時開啟多核時代;

2014年IBM的Power8包含了12個核心,有96個線程裝有42億個晶體管;

......

而我們回看世界上第一款商用微處理器,英特爾4004,這款51年前誕生的產(chǎn)品在3mm*4mm的面積上集成了2300個晶體管,采用五層設計、10微米制程。而這款處理器的最初的主頻是108KHz,最高時脈有740KHz,能執(zhí)行4位元運算,支援8位元指令集及12位元位址集,使用10.8微秒和21.6微秒運行周期。

晶體管數(shù)量的增加讓性能提升了多少呢?包含2300個晶體管的英特爾4004在使用10.8微秒運行周期時,可以每秒運算9萬次。作為對比,包含800億晶體管的H100最高可支持每秒4000萬億次的浮點計算。我們可以看到晶體管數(shù)量與性能明顯的正相關,這也是為何所有領先的芯片公司都在晶體管數(shù)量上下足功夫。

然而當每一場新開的發(fā)布會都在刷新大眾對晶體管數(shù)量的認知的同時,“堆料”的光環(huán)逐漸褪去。一部分人認為,對于領先的芯片設計商,“堆料”顯得簡單粗暴。對于個人用戶,很難100%地利用所有晶體管帶來的性能提升。更多時候,“堆料”對于芯片廠商的意義是保持市場地位。以熱衷堆料的蘋果為例,蘋果在最新的手機處理器上集成了150億個晶體管,采用6核CPU、4/5核GPU,讓CPU性能領先競爭對手50%,4/5核CPU性能實現(xiàn)30%/50%的領先。但對于使用iPhone 12的用戶來說,這些數(shù)字似乎意義有限。

可以看到,芯片性能的發(fā)展史也是晶體管數(shù)量的變遷史。但隨著晶體管數(shù)量的增長,摩爾定律的放緩已經(jīng)肉眼可見。對于頂尖大廠來說,找尋增加晶體管數(shù)量之外的“卷法”也成為了當務之急。

“堆料”極限如何突破?

Chiplet技術

小芯片(Chiplet)技術被視為延緩半導體摩爾定律的解方,它的概念其實很簡單就是硅片級別重用。將一個芯片組成的處理器劃分為多個芯片,分別是:數(shù)據(jù)存儲、計算、信號處理、數(shù)據(jù)流管理等功能,然后再將它們連接在一起形成一個小芯片的芯片網(wǎng)絡。

Marvell創(chuàng)始人周秀文博士在ISSCC2015大會上提出了提出Mochi架構的概念,他認為Mochi可成為諸多應用的基礎架構。而AMD在2019年通過采用Chiplet技術,應用于在Ryzen和EPYC處理器。使用7nm的Zen2 CPU內(nèi)核的CPU性能比前代產(chǎn)品提高了15%。

除了Chiplet技術可以將大型7nm設計的成本降低高達25%;在5nm及更先進的制程的設計中,節(jié)省的成本更大。

芯原股份創(chuàng)始人、董事長兼總裁戴偉民曾表示,對于產(chǎn)業(yè)來說,在標準與生態(tài)層次上,Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng);對于芯片設計來說,降低了大規(guī)模芯片設計的門檻。

英特爾、AMD、Arm、臺積電和三星等眾多行業(yè)巨頭推出了新的通用小芯片互連高速 (UCIe) 聯(lián)盟,其目標是通過開放的芯片間互連標準化小芯片之間的互連設計。從而降低成本并培育更廣泛的經(jīng)過驗證的小芯片生態(tài)系統(tǒng)。

最后,UCIe 標準旨在與其他連接標準(如 USB、PCIe 和 NVMe)一樣普遍,同時為小芯片連接提供卓越的功率和性能指標。值得注意的是,所有三個領先的代工廠都將采用這項技術,以及 x86 和 Arm 生態(tài)系統(tǒng)。這是隨著摩爾定律的減弱,芯片制造商正在共同努力解決越來越困難的縮放。

在英偉達的新品上,支持UCIe的NVlink連接技術就起到重要的作用。兩個 Grace CPU 通過 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進行通信。這種互連技術支持低延遲內(nèi)存一致性,允許連接的設備同時在同一個內(nèi)存池上工作。NVLink-C2C可提供高達 25 倍的能效和 90 倍的面積效率,支持高達 900 GB/s 或更高的吞吐量。同時通過支持多種類型的聯(lián)機,Grace可實現(xiàn)從 PCB 的互連到硅中介層和晶圓級的互連。

互連技術除了提高芯片性能,還可以降低成本和并支持在單個封裝中使用不同類型的工藝節(jié)點。

先進封裝

當實際芯片的密度仍以每3年約2倍的速度增長,摩爾定律的放緩已經(jīng)肉眼可見。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡,但這些問題大多與數(shù)據(jù)的輸入和輸出有關。

芯片上數(shù)據(jù)的輸入和輸出(IO)是計算的命脈。將內(nèi)存放在芯片上有助于通過減少通信開銷來減少IO需求。小芯片技術雖然能滿足一部分需求,但它不是孤立的解決方案。隨著每個晶體管的成本的上升,設計成本飆升,由于需要更多IO來與其他芯片接口,但IO的限制讓部分芯片無法拆分,因此芯片尺寸仍在達到峰值。

先進封裝就成為了解決這方面問題的方法。蘋果的M1 Ultra就通過2.5D先進封裝實現(xiàn)性能超越。UltraFusion是蘋果將兩個M1 Max裸片鏈接的方法。通過將兩個M1 Max裸片封裝到一起,蘋果使他們可以使用的硬件數(shù)量翻了一番。兩倍的CPU內(nèi)核、兩倍的GPU內(nèi)核、兩倍的神經(jīng)引擎內(nèi)核、兩倍的LPDDR5內(nèi)存通道以及兩倍的外圍設備I/O。

英特爾則選擇在單個基板中可以有許多嵌入式橋接,根據(jù)需要在多個裸片之間提供極高的 I/O 和良好控制的電氣互連路徑,即EMIB封裝實現(xiàn)芯片性能的提升。

可以看到封裝、架構種種因素在性能提升上的重要性越來越高。

“堆料”是大廠逃不過的內(nèi)卷?

雖然業(yè)界對“堆料”的褒貶不一,但現(xiàn)實仍是,可以不止于堆料,但不能不堆料。而堆料也不僅僅是形容在處理器上增加晶體管,廣義上講堆料還包括各種硬件廠商,如主板廠、手機廠為了尋求差異化,也在產(chǎn)品上增加大量的頂尖配件。

隨著汽車智能化程度的提高,汽車廠商也在用”堆料”來吸引客戶。Aquila蔚來超感系統(tǒng)配備了33個高性能感知硬件,包括1個超遠距高精度激光雷達、7顆800萬像素高清攝像頭、4顆300萬像素高感光環(huán)視專用攝像頭、1個增強主駕感知、5個毫米波雷達、12個超聲波傳感器、2個高精度定位單元和V2X車路協(xié)同。

如果是自動駕駛是智能汽車廠商們的終極目標,顯然這一配置并不足夠。更何況自動駕駛需要的不止是汽車廠商們的突破,對交通系統(tǒng)、城市網(wǎng)聯(lián)等方面都有著很高的要求。但汽車廠商們還是在為產(chǎn)品增加非必要的配件。

換句話說,“堆料”就像是各硬件廠商的一場內(nèi)卷。既然逃不過,就只能加入。

不過就算是內(nèi)卷,也有不同的卷法。汽車行業(yè)中,特斯拉就選擇通過優(yōu)化傳感器組合、控制傳感器數(shù)量,算法改進等各種手段,充分發(fā)揮單個傳感器的最佳性能,而非單純的增加配件。

如果說“堆料”是一場競爭始終無法避免,可以確定的是最終決定勝負的“料”一定不止一面。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。