高清在线精品一区app,久久爱www免费人成国产

文|半導體產(chǎn)業(yè)縱橫

1947年12月23日，世界上第一個晶體管誕生。晶體管的出現(xiàn)就好像宇宙的第一次爆炸。如同大爆炸帶來的萬千星球，75年間世界上晶體管的數(shù)量不斷增長。

從一個晶體管到在一片芯片上集成800億個晶體管，當芯片以摩爾預測的那樣成倍增長，“堆料”成為各個大廠實現(xiàn)性能差異化的必選之路。

那么百億級晶體管給產(chǎn)品性能帶來了多少提升？隨著摩爾定律的開始放緩，“堆料”的難度越來越高，芯片公司又該如何突破極限？

高性能處理器的”堆料”大戰(zhàn)

3月22日，英偉達介紹了新Hopper GPU 架構與H100 GPU。這款被稱為核彈級更新的新品將容納800億個晶體管，成為當下性能最強大的GPU。在發(fā)布會上，英偉達CEO黃仁勛表示，20塊H100 GPU就可以承托全球互聯(lián)網(wǎng)的流量。

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達到128GB/s的速度，是PCIe 4.0的2倍。

內(nèi)存方面，H100還將默認支持80GB的HBM3內(nèi)存，帶寬為3 TB/s，比A100的HBM2E 快 1.5 倍。性能方面，H100可提供高達FP64/FP32 60TFlops，F(xiàn)P162000TFlops，TF32 1000TFlops，都三倍于A100，F(xiàn)P8 4000TFlops，六倍于A100。

炸場的不只是新一代GPU，還有英偉達的數(shù)據(jù)中心CPU Grace。Grace是兩個Grace CPU封裝的，總計144個CPU內(nèi)核（基于ARMv9指令集），緩存容量396MB，支持LPDDR5X ECC內(nèi)存，通過每秒 900 GB 的 NVLink 芯片到芯片互連將 144 個計算核心彼此連通，內(nèi)存帶寬則為每秒 1 TB。

Grace CPU Superchip 使用 Arm v9并且該芯片使用 Neoverse N2 設計。Neoverse N2 平臺是 Arm 首個支持新發(fā)布的 Arm v9 擴展的IP，其性能比V1 平臺高出 40%。N2 Perseus平臺采用5nm設計，支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。而功率消耗上看，Grace CPU Superchip的兩個CPU和板載內(nèi)存都消耗500W的峰值功率。

而就在3月9日，蘋果在春季發(fā)布會上也推出了讓人眼前一亮的超級新品M1 Ultra，這款芯片包括20個CPU內(nèi)核，其中16個是注重性能的Firestorm核心，4個注重效率的Icestorm核心。新的SoC由1140億個晶體管組成，可配置高達128GB的高帶寬、低延遲統(tǒng)一內(nèi)存，可通過20核CPU、64核GPU和32核神經(jīng)引擎訪問，比使用帶有Afterburner的28核Mac Pro快5.6倍。

“堆料”=性能？

英特爾1971年發(fā)布4004處理器，擁有2250個晶體管；1979年8088投入生產(chǎn)，包含29000個晶體管的芯片；

1986年MIPS計算機系統(tǒng)公司發(fā)布第一個商業(yè)化的RISC體系結構包含11萬個晶體管；

數(shù)字設備公司（DEC）于1994年發(fā)布Alpha 21164包含930萬個晶體管；

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個晶體管，同時開啟多核時代；

2014年IBM的Power8包含了12個核心，有96個線程裝有42億個晶體管；

......

而我們回看世界上第一款商用微處理器，英特爾4004，這款51年前誕生的產(chǎn)品在3mm*4mm的面積上集成了2300個晶體管，采用五層設計、10微米制程。而這款處理器的最初的主頻是108KHz，最高時脈有740KHz，能執(zhí)行4位元運算，支援8位元指令集及12位元位址集，使用10.8微秒和21.6微秒運行周期。

晶體管數(shù)量的增加讓性能提升了多少呢？包含2300個晶體管的英特爾4004在使用10.8微秒運行周期時，可以每秒運算9萬次。作為對比，包含800億晶體管的H100最高可支持每秒4000萬億次的浮點計算。我們可以看到晶體管數(shù)量與性能明顯的正相關，這也是為何所有領先的芯片公司都在晶體管數(shù)量上下足功夫。

然而當每一場新開的發(fā)布會都在刷新大眾對晶體管數(shù)量的認知的同時，“堆料”的光環(huán)逐漸褪去。一部分人認為，對于領先的芯片設計商，“堆料”顯得簡單粗暴。對于個人用戶，很難100%地利用所有晶體管帶來的性能提升。更多時候，“堆料”對于芯片廠商的意義是保持市場地位。以熱衷堆料的蘋果為例，蘋果在最新的手機處理器上集成了150億個晶體管，采用6核CPU、4/5核GPU，讓CPU性能領先競爭對手50%，4/5核CPU性能實現(xiàn)30%/50%的領先。但對于使用iPhone 12的用戶來說，這些數(shù)字似乎意義有限。

可以看到，芯片性能的發(fā)展史也是晶體管數(shù)量的變遷史。但隨著晶體管數(shù)量的增長，摩爾定律的放緩已經(jīng)肉眼可見。對于頂尖大廠來說，找尋增加晶體管數(shù)量之外的“卷法”也成為了當務之急。

“堆料”極限如何突破？

Chiplet技術

小芯片（Chiplet）技術被視為延緩半導體摩爾定律的解方，它的概念其實很簡單就是硅片級別重用。將一個芯片組成的處理器劃分為多個芯片，分別是：數(shù)據(jù)存儲、計算、信號處理、數(shù)據(jù)流管理等功能，然后再將它們連接在一起形成一個小芯片的芯片網(wǎng)絡。

Marvell創(chuàng)始人周秀文博士在ISSCC2015大會上提出了提出Mochi架構的概念，他認為Mochi可成為諸多應用的基礎架構。而AMD在2019年通過采用Chiplet技術，應用于在Ryzen和EPYC處理器。使用7nm的Zen2 CPU內(nèi)核的CPU性能比前代產(chǎn)品提高了15%。

除了Chiplet技術可以將大型7nm設計的成本降低高達25%；在5nm及更先進的制程的設計中，節(jié)省的成本更大。

芯原股份創(chuàng)始人、董事長兼總裁戴偉民曾表示，對于產(chǎn)業(yè)來說，在標準與生態(tài)層次上，Chiplet建立了新的可互操作的組件、互連協(xié)議和軟件生態(tài)系統(tǒng)；對于芯片設計來說，降低了大規(guī)模芯片設計的門檻。

英特爾、AMD、Arm、臺積電和三星等眾多行業(yè)巨頭推出了新的通用小芯片互連高速 (UCIe) 聯(lián)盟，其目標是通過開放的芯片間互連標準化小芯片之間的互連設計。從而降低成本并培育更廣泛的經(jīng)過驗證的小芯片生態(tài)系統(tǒng)。

最后，UCIe 標準旨在與其他連接標準（如 USB、PCIe 和 NVMe）一樣普遍，同時為小芯片連接提供卓越的功率和性能指標。值得注意的是，所有三個領先的代工廠都將采用這項技術，以及 x86 和 Arm 生態(tài)系統(tǒng)。這是隨著摩爾定律的減弱，芯片制造商正在共同努力解決越來越困難的縮放。

在英偉達的新品上，支持UCIe的NVlink連接技術就起到重要的作用。兩個 Grace CPU 通過 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口進行通信。這種互連技術支持低延遲內(nèi)存一致性，允許連接的設備同時在同一個內(nèi)存池上工作。NVLink-C2C可提供高達 25 倍的能效和 90 倍的面積效率，支持高達 900 GB/s 或更高的吞吐量。同時通過支持多種類型的聯(lián)機，Grace可實現(xiàn)從 PCB 的互連到硅中介層和晶圓級的互連。

互連技術除了提高芯片性能，還可以降低成本和并支持在單個封裝中使用不同類型的工藝節(jié)點。

先進封裝

當實際芯片的密度仍以每3年約2倍的速度增長，摩爾定律的放緩已經(jīng)肉眼可見。這種放緩的部分原因是由于 SRAM 縮放、功率傳輸和熱密度的消亡，但這些問題大多與數(shù)據(jù)的輸入和輸出有關。

芯片上數(shù)據(jù)的輸入和輸出（IO）是計算的命脈。將內(nèi)存放在芯片上有助于通過減少通信開銷來減少IO需求。小芯片技術雖然能滿足一部分需求，但它不是孤立的解決方案。隨著每個晶體管的成本的上升，設計成本飆升，由于需要更多IO來與其他芯片接口，但IO的限制讓部分芯片無法拆分，因此芯片尺寸仍在達到峰值。

先進封裝就成為了解決這方面問題的方法。蘋果的M1 Ultra就通過2.5D先進封裝實現(xiàn)性能超越。UltraFusion是蘋果將兩個M1 Max裸片鏈接的方法。通過將兩個M1 Max裸片封裝到一起，蘋果使他們可以使用的硬件數(shù)量翻了一番。兩倍的CPU內(nèi)核、兩倍的GPU內(nèi)核、兩倍的神經(jīng)引擎內(nèi)核、兩倍的LPDDR5內(nèi)存通道以及兩倍的外圍設備I/O。

英特爾則選擇在單個基板中可以有許多嵌入式橋接，根據(jù)需要在多個裸片之間提供極高的 I/O 和良好控制的電氣互連路徑，即EMIB封裝實現(xiàn)芯片性能的提升。

可以看到封裝、架構種種因素在性能提升上的重要性越來越高。

“堆料”是大廠逃不過的內(nèi)卷？

雖然業(yè)界對“堆料”的褒貶不一，但現(xiàn)實仍是，可以不止于堆料，但不能不堆料。而堆料也不僅僅是形容在處理器上增加晶體管，廣義上講堆料還包括各種硬件廠商，如主板廠、手機廠為了尋求差異化，也在產(chǎn)品上增加大量的頂尖配件。

隨著汽車智能化程度的提高，汽車廠商也在用”堆料”來吸引客戶。Aquila蔚來超感系統(tǒng)配備了33個高性能感知硬件，包括1個超遠距高精度激光雷達、7顆800萬像素高清攝像頭、4顆300萬像素高感光環(huán)視專用攝像頭、1個增強主駕感知、5個毫米波雷達、12個超聲波傳感器、2個高精度定位單元和V2X車路協(xié)同。

如果是自動駕駛是智能汽車廠商們的終極目標，顯然這一配置并不足夠。更何況自動駕駛需要的不止是汽車廠商們的突破，對交通系統(tǒng)、城市網(wǎng)聯(lián)等方面都有著很高的要求。但汽車廠商們還是在為產(chǎn)品增加非必要的配件。

換句話說，“堆料”就像是各硬件廠商的一場內(nèi)卷。既然逃不過，就只能加入。

不過就算是內(nèi)卷，也有不同的卷法。汽車行業(yè)中，特斯拉就選擇通過優(yōu)化傳感器組合、控制傳感器數(shù)量，算法改進等各種手段，充分發(fā)揮單個傳感器的最佳性能，而非單純的增加配件。

如果說“堆料”是一場競爭始終無法避免，可以確定的是最終決定勝負的“料”一定不止一面。

文|半導體產(chǎn)業(yè)縱橫

從一個晶體管到在一片芯片上集成800億個晶體管，當芯片以摩爾預測的那樣成倍增長，“堆料”成為各個大廠實現(xiàn)性能差異化的必選之路。

那么百億級晶體管給產(chǎn)品性能帶來了多少提升？隨著摩爾定律的開始放緩，“堆料”的難度越來越高，芯片公司又該如何突破極限？

高性能處理器的”堆料”大戰(zhàn)

H100支持的第四代NVLink接口可以提供高128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達到128GB/s的速度，是PCIe 4.0的2倍。

“堆料”=性能？

英特爾1971年發(fā)布4004處理器，擁有2250個晶體管；1979年8088投入生產(chǎn)，包含29000個晶體管的芯片；

1986年MIPS計算機系統(tǒng)公司發(fā)布第一個商業(yè)化的RISC體系結構包含11萬個晶體管；

數(shù)字設備公司（DEC）于1994年發(fā)布Alpha 21164包含930萬個晶體管；

在2006年英特爾發(fā)布了Core Duo包裝了2.91億個晶體管，同時開啟多核時代；

2014年IBM的Power8包含了12個核心，有96個線程裝有42億個晶體管；

......

“堆料”極限如何突破？

Chiplet技術

除了Chiplet技術可以將大型7nm設計的成本降低高達25%；在5nm及更先進的制程的設計中，節(jié)省的成本更大。

互連技術除了提高芯片性能，還可以降低成本和并支持在單個封裝中使用不同類型的工藝節(jié)點。

先進封裝

可以看到封裝、架構種種因素在性能提升上的重要性越來越高。

“堆料”是大廠逃不過的內(nèi)卷？

換句話說，“堆料”就像是各硬件廠商的一場內(nèi)卷。既然逃不過，就只能加入。

如果說“堆料”是一場競爭始終無法避免，可以確定的是最終決定勝負的“料”一定不止一面。

歷史搜索全部刪除

熱門搜索

800億晶體管開啟新一輪堆料大戰(zhàn)

高性能處理器的”堆料”大戰(zhàn)

Chiplet技術

先進封裝

英特爾

評論

800億晶體管開啟新一輪堆料大戰(zhàn)

高性能處理器的”堆料”大戰(zhàn)

Chiplet技術

先進封裝