正在閱讀:

【解讀】費(fèi)電但極具潛力的“大腦”:如何理解AI耗能問(wèn)題?

掃一掃下載界面新聞APP

【解讀】費(fèi)電但極具潛力的“大腦”:如何理解AI耗能問(wèn)題?

人工智能的能耗來(lái)自哪些環(huán)節(jié)?如何降低能耗以及未來(lái)如何填補(bǔ)用能缺口?

來(lái)源:視覺(jué)中國(guó)

4月18日,Meta發(fā)布了最新開源模型Llama3,訓(xùn)練該模型使用的GPU芯片H100數(shù)量是Llama2時(shí)候的8倍,AI訓(xùn)練的算力競(jìng)賽再次提速。

更多的GPU芯片意味著更多的算力,也意味著需要消耗更多的電力。

今年以來(lái),幾位悉心研究AI的商界大佬們紛紛發(fā)表言論,暗示AI發(fā)展的盡頭是“缺電”。OpenAI首席執(zhí)行官薩姆·奧特曼表示,AI技術(shù)消耗的電力將遠(yuǎn)遠(yuǎn)超出人們預(yù)期。而埃隆·馬斯克認(rèn)為,按照人工智能每6個(gè)月就以10倍速度飆升的發(fā)展趨勢(shì),電力供應(yīng)會(huì)面臨前所未有的壓力。英偉達(dá)創(chuàng)始人黃仁勛則說(shuō),AI的盡頭將是光伏和儲(chǔ)能。

過(guò)去數(shù)據(jù)中心的快速發(fā)展,已經(jīng)呈現(xiàn)出對(duì)電力和水資源的巨大需求,而AI將加速這一消耗。界面智庫(kù)整理已有的關(guān)于AI耗能、耗水量的研究,做了以下梳理: 

界面智庫(kù)整理

“AI耗能”的問(wèn)題還可以被拆解,其中包括軟件和硬件兩個(gè)部分。軟件指AI模型的訓(xùn)練、使用耗能等環(huán)節(jié),硬件指芯片、數(shù)據(jù)中心運(yùn)轉(zhuǎn)的耗能。就以硬件中的芯片來(lái)說(shuō),芯片生產(chǎn)過(guò)程需要“超純水”清洗,耗水量巨大,有數(shù)據(jù)估算,生產(chǎn)一個(gè)2克重的計(jì)算機(jī)芯片大約需要32公斤水,臺(tái)積電每年晶圓產(chǎn)能約3000萬(wàn)片,芯片生產(chǎn)耗水約8000萬(wàn)噸。

打個(gè)不恰當(dāng)?shù)谋确剑很浖暮哪?,類似一個(gè)人做一道數(shù)學(xué)題需要消耗多少腦力,懂得計(jì)算方法的人可能“用腦”更少;硬件的耗能,類似人體給大腦供能的效率,一個(gè)肌肉量高的人補(bǔ)充的能量可能有更大部分是被肌肉消耗掉了。而有觀點(diǎn)認(rèn)為,AI之所以還沒(méi)有被普及,就是因?yàn)閺哪壳暗乃娇?,解決同樣的問(wèn)題,從能耗和成本上,它還是比人腦“貴”多了。

當(dāng)然,在AI耗能問(wèn)題上,不能只看耗能不看產(chǎn)出,還要考慮到AI的廣泛應(yīng)用能為各行各業(yè)帶來(lái)更大的生產(chǎn)力和發(fā)展?jié)撃堋?/p>

人工智能的能耗來(lái)自哪些環(huán)節(jié)?如何降低能耗以及未來(lái)如何填補(bǔ)用能缺口?界面智庫(kù)分別采訪了“軟件”和“硬件”方面的專家做出梳理和解讀。

一、生成式人工智能的耗能量和碳排放該怎么計(jì)算?能耗來(lái)自哪些環(huán)節(jié)?

清華大學(xué)工學(xué)博士、教授級(jí)高工、新型電力系統(tǒng)創(chuàng)新聯(lián)盟專家委員周文聞告訴界面智庫(kù),生成式人工智能(AIGC)雖然是軟件模型,但按照全生命周期(LCA-Life Cycle Assessment生命周期評(píng)估)的計(jì)算方法,應(yīng)該從開展和使用該算法業(yè)務(wù)的硬件部分開始計(jì)算,直到全生命周期結(jié)束。

如下圖所示,生成式人工智能的能耗組成部分包括:設(shè)備制造、模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用等四個(gè)環(huán)節(jié)。其中模型訓(xùn)練是AIGC能耗的重要組成部分,其次是模型使用。

某大模型碳足跡建模界面,圖片由周文聞團(tuán)隊(duì)提供

 周文聞帶領(lǐng)團(tuán)隊(duì)按照LCA的評(píng)估方法對(duì)某大模型進(jìn)行碳足跡建模,其中設(shè)備制造階段重點(diǎn)計(jì)算了vCPU、內(nèi)存和GPU的能耗(主動(dòng)忽略了總線、接口、外設(shè)、風(fēng)扇、機(jī)箱等);模型訓(xùn)練階段只考慮了服務(wù)器的計(jì)算能耗和存儲(chǔ)能耗(忽略網(wǎng)絡(luò)傳輸);數(shù)據(jù)標(biāo)注階段考慮標(biāo)注所使用的筆記本/臺(tái)式電腦碳排放,模型使用階段和模型訓(xùn)練階段的結(jié)算方式雷同,以能耗乘以碳排放因子來(lái)計(jì)算碳足跡,綜合得出的該大模型的產(chǎn)品碳足跡總量為962.37 tCO2e(二氧化碳排放當(dāng)量),大概是49個(gè)美國(guó)人一年產(chǎn)生的碳排放(按美國(guó)人均二氧化碳排放量19.58噸計(jì)算-Maplecroft公司2009年數(shù)據(jù))。

該公式?jīng)]有計(jì)算數(shù)據(jù)中心冷卻系統(tǒng)、網(wǎng)絡(luò)傳輸?shù)奶甲阚E等。而事實(shí)上,數(shù)據(jù)中心的數(shù)據(jù)傳輸速率和散熱冷卻系統(tǒng),也是重要的耗能來(lái)源。這些環(huán)節(jié)會(huì)如何影響數(shù)據(jù)中心能耗?

TE Connectivity是全球規(guī)模最大的連接和傳感解決方案提供商之一,TE Connectivity數(shù)據(jù)與終端設(shè)備事業(yè)部亞太區(qū)銷售總監(jiān)蔣撲天告訴界面智庫(kù),服務(wù)器的能效水平是影響數(shù)據(jù)中心能耗的重要因素之一。如果提高端到端整個(gè)鏈路上的數(shù)據(jù)傳輸速率,可以幫助數(shù)據(jù)中心降低服務(wù)器處理同等數(shù)據(jù)量的能耗,“比如理論上4G網(wǎng)絡(luò)條件下,每度電可下載620G的數(shù)據(jù),而在5G每度電可下載2857G的數(shù)據(jù),也就是說(shuō)從能效上,5G是4G的4.6倍”。

他還指出,隨著數(shù)據(jù)中心算力提高,必然需要更高的能源電力,也就要求在不增加連接器產(chǎn)品空間的前提下,增加更多能源供應(yīng),這意味著連接器單位面積可承載的電源功率要相應(yīng)提高。而當(dāng)電源功率增加,單位面積不變大的情況下,散熱就非常關(guān)鍵?!八栽谏岱绞缴?,國(guó)內(nèi)從原來(lái)的風(fēng)冷,現(xiàn)在開始嘗試做液冷,將熱能從模塊中傳輸出去,并保持較低的運(yùn)行溫度,提高系統(tǒng)整體效率和可靠性?!笔Y撲天說(shuō)。

散熱就需要耗能。各家企業(yè)也在嘗試各種方法為數(shù)據(jù)中心散熱。中國(guó)宏觀經(jīng)濟(jì)研究院能源研究所研究員崔成撰文寫到:微軟曾嘗試部署海下數(shù)據(jù)中心,F(xiàn)acebook數(shù)據(jù)中心選址在北極圈附近,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷等,我國(guó)很多企業(yè)則把數(shù)據(jù)中心布局在水電資源豐富的西南地區(qū)。

因此,生成式人工智能的能耗更準(zhǔn)確的計(jì)算需要考慮軟件和硬件兩個(gè)部分以及不同環(huán)節(jié)。

二、Chatgpt、PaLM 、Claude、盤古、文心一言、Gemini,不同的大模型耗能是否會(huì)有差異?是否大模型越發(fā)展,就會(huì)消耗越多能源?

不同大模型的能耗確實(shí)會(huì)有差異。周文聞指出,其中設(shè)備制造環(huán)節(jié)的差異不大,因?yàn)椴煌竽P褪褂玫挠布A(chǔ)設(shè)施大多是同質(zhì)化的CPU和GPU服務(wù)器;而差異主要體現(xiàn)在模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用這三個(gè)環(huán)節(jié)。目前很少能從公開資料查到以上大模型的資源使用信息,在數(shù)據(jù)不透明的情況下(除了各家自己掌握數(shù)據(jù)),很難準(zhǔn)確計(jì)算大模型的能耗使用水平。

不過(guò),硬件基礎(chǔ)設(shè)施的能耗計(jì)算方式,也有可能因?yàn)榧夹g(shù)革新而被顛覆。就在近日,媒體報(bào)道稱前谷歌量子計(jì)算團(tuán)隊(duì)的幾位員工創(chuàng)立了一家名為Extropic的公司,提出用物質(zhì)隨機(jī)波動(dòng)驅(qū)動(dòng)計(jì)算,認(rèn)為這種計(jì)算方式更接近人類大腦,將有可能擴(kuò)展硬件的性能界限,超越傳統(tǒng)的數(shù)字計(jì)算,比現(xiàn)在的CPU、GPU等數(shù)字處理器更高效更節(jié)能。

至于隨著大模型的發(fā)展,未來(lái)是否會(huì)消耗越多能源,周文聞指出,因?yàn)槟P偷牡饕啃碌臄?shù)據(jù)訓(xùn)練來(lái)完成,數(shù)據(jù)訓(xùn)練的基礎(chǔ)設(shè)施就是算力,而算力的基礎(chǔ)設(shè)施是能源。

舉個(gè)例子,因?yàn)榕c微軟工程師有過(guò)交流,AI創(chuàng)新公司OpenPipe的聯(lián)合創(chuàng)始人Kyle Corbitt在社交平臺(tái)X上回答提問(wèn)“為何不將(GPT-6)的訓(xùn)練集群集中同一個(gè)區(qū)域”,因?yàn)椤坝袊L試過(guò),但無(wú)法在同一州放置超過(guò)10萬(wàn)片H100的GPU,否則會(huì)導(dǎo)致電網(wǎng)癱瘓?!?/p>

“需要注意的誤區(qū)是,大模型消耗能源并不可怕,可怕的是大量消耗傳統(tǒng)能源,關(guān)鍵是要使用清潔能源來(lái)替代。”周文聞?wù)f。

華泰證券研報(bào)預(yù)測(cè),到2030年中國(guó)與美國(guó)的數(shù)據(jù)中心總用電量將分別達(dá)到0.65萬(wàn)億千瓦時(shí)至0.95萬(wàn)億千瓦時(shí)、1.2萬(wàn)億千瓦時(shí)至1.7萬(wàn)億千瓦時(shí),是2022年的3.5倍和6倍以上。解決用能問(wèn)題,也是解決AI技術(shù)與產(chǎn)業(yè)未來(lái)發(fā)展的瓶頸。

三、未來(lái)如何填補(bǔ)缺口?通過(guò)哪些方式為人工智能供能?

“這個(gè)問(wèn)題需要辯證看待?!敝芪穆勚赋觯墒饺斯ぶ悄馨l(fā)展的不同階段,對(duì)能源的需求是不同的,例如在目前LLM的形態(tài)下,當(dāng)前的能源是夠用的,而按照OpenAI規(guī)劃的最終AI形態(tài),能源基礎(chǔ)設(shè)施必須跟上,否則會(huì)制約AI技術(shù)的發(fā)展。

在未來(lái)增加供能方面,周文聞?wù)J為可以從供給側(cè)和需求側(cè)兩個(gè)方面解決。供給側(cè):一是做好傳統(tǒng)能源向清潔能源逐步轉(zhuǎn)化、逐漸替代,人工智能的發(fā)展也要和化石燃料脫鉤;二是大力發(fā)展和建設(shè)清潔能源,比如風(fēng)電、光伏、儲(chǔ)能,提高清潔能源占比;三是積極探索新型能源技術(shù)和相關(guān)新材料,比如可控核聚變、固態(tài)電池、鈣鈦礦等。

在需求側(cè):一是減少重復(fù)的模型訓(xùn)練工作,不同國(guó)家/廠商用同樣或類似的數(shù)據(jù)集訓(xùn)練自己的閉源模型,造成能源重復(fù)浪費(fèi),應(yīng)該鼓勵(lì)開源模型的應(yīng)用,鼓勵(lì)共享部分模型和算法;二是積極探索和研究新的模型架構(gòu),在訓(xùn)練完模型底座后,盡可能微調(diào)模型結(jié)構(gòu);三是人工智能公司也要有氣候變化的危機(jī)意識(shí)和能源危機(jī)意識(shí),盡可能使用清潔能源。

蔣撲天則指出了兩項(xiàng)在硬件上有望節(jié)能增效的技術(shù)創(chuàng)新。

一是材料創(chuàng)新,在印制電路板(PCBA-Printed Circuit Board Assembly)里,探索“光進(jìn)銅退”—即通過(guò)OTB(光纜終端盒)的方式用光纖替代一部分服務(wù)器里的銅線。

“過(guò)去’光進(jìn)銅退’主要體現(xiàn)在終端設(shè)備外部,用光纜而不用銅纜進(jìn)行長(zhǎng)距離傳輸,幫助節(jié)省材料成本和電力消耗,未來(lái)的‘光進(jìn)銅退’發(fā)生在設(shè)備內(nèi)部,數(shù)據(jù)連接的傳輸速率在單次迭代的情況下,提升得越來(lái)越快?!彼赋?,在數(shù)據(jù)傳輸速率從224G到448G的發(fā)展過(guò)程中,很可能會(huì)發(fā)生“光進(jìn)銅退”的變革,芯片到芯片之間以光纖的形式連接,減少原有芯片外部的電力驅(qū)動(dòng)和電光/光電轉(zhuǎn)換環(huán)節(jié),從而減少能耗,“以交換機(jī)芯片廠商博通發(fā)布的一款112G速率的光連接交換芯片為例,同樣驅(qū)動(dòng)800G的鏈路,傳統(tǒng)交換機(jī)需要14W的功率,而芯片光纖直連的交換機(jī)只需要5.5W的功率,降低了約60%的能耗?!?/p>

二是更好幫助數(shù)據(jù)中心散熱的液冷技術(shù)。國(guó)內(nèi)服務(wù)器廠商浪潮發(fā)布了業(yè)界首個(gè)可支持浸沒(méi)式液冷50℃進(jìn)液溫度的服務(wù)器,通過(guò)更高效的系統(tǒng)散熱設(shè)計(jì)和熱管理技術(shù),實(shí)現(xiàn)更高的進(jìn)液溫度,比業(yè)內(nèi)常用的40℃進(jìn)液溫度系統(tǒng)減少了冷卻系統(tǒng)的部署、節(jié)省電力消耗。“液體帶走熱量的能力是同體積空氣的3000倍,液冷系統(tǒng)比風(fēng)冷系統(tǒng)可以節(jié)省約30%的能源消耗,并且可以降低噪音,提供更好的工作環(huán)境?!笔Y撲天介紹。為了適應(yīng)液冷散熱系統(tǒng),連接器和線纜也需要從材料的耐高溫、耐腐蝕,以及信號(hào)的完整性上做優(yōu)化。

另外,蔣撲天指出,作為前沿技術(shù),基于光芯片的人工智能處理器也在業(yè)界積極開發(fā)中,通過(guò)光學(xué)衍射-干涉混合等技術(shù),甚至可以為毫瓦級(jí)低功耗自主智能無(wú)人系統(tǒng)提供算力支撐。

四、人工智能的應(yīng)用正在哪些領(lǐng)域鋪開?有哪些已經(jīng)在發(fā)生的應(yīng)用和改變,以及哪些極具潛力的方向?

人工智能在制造業(yè)的應(yīng)用可以幫助優(yōu)化生產(chǎn)和采購(gòu)流程,維護(hù)供應(yīng)鏈穩(wěn)定,提高生產(chǎn)效率和產(chǎn)品質(zhì)量;在醫(yī)療保健領(lǐng)域的應(yīng)用可以提高影像分析的診斷準(zhǔn)確性,擴(kuò)大醫(yī)療服務(wù)受益人群;在農(nóng)業(yè)領(lǐng)域的應(yīng)用則可以幫助農(nóng)業(yè)生產(chǎn)進(jìn)行作物監(jiān)測(cè),提供更精準(zhǔn)的施肥、灌溉策略等。

蔣撲天基于他的觀察對(duì)人工智能已經(jīng)應(yīng)用的領(lǐng)域,和潛力方向做了簡(jiǎn)單的分享。 

制圖:界面智庫(kù)

第十四屆全國(guó)人大常委會(huì)委員、國(guó)家氣候變化專家委員會(huì)副主任王毅就曾表示,AI產(chǎn)品消耗的電力對(duì)社會(huì)來(lái)說(shuō)是否是負(fù)擔(dān),需要總體來(lái)看,“AI帶來(lái)的創(chuàng)新能力是我們過(guò)去人力所不可比擬的”。

美銀美林預(yù)計(jì),AI的電力使用量將在2023年至2028年間以25-33%的年復(fù)合增長(zhǎng)率增長(zhǎng),這一增長(zhǎng)將對(duì)數(shù)據(jù)中心的設(shè)計(jì)和運(yùn)營(yíng)帶來(lái)挑戰(zhàn)。

2024年3月21日,聯(lián)合國(guó)大會(huì)通過(guò)首個(gè)關(guān)于人工智能的全球決議《抓住安全、可靠和值得信賴的人工智能系統(tǒng)帶來(lái)的機(jī)遇,促進(jìn)可持續(xù)發(fā)展》,“能耗”只是人工智能可持續(xù)發(fā)展中的其中一個(gè)問(wèn)題,也是人工智能技術(shù)與產(chǎn)業(yè)發(fā)展的基礎(chǔ),人工智能的發(fā)展也須平衡環(huán)境、資源與氣候的關(guān)系。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

關(guān)于界面智庫(kù)

界面智庫(kù)是界面新聞旗下的財(cái)經(jīng)和商業(yè)智庫(kù),聚焦宏觀政策、區(qū)域經(jīng)濟(jì)、產(chǎn)業(yè)趨勢(shì)和資本市場(chǎng)等。我們的宗旨是扎根事實(shí)、演繹趨勢(shì)、探索新知,助力政策制定和企業(yè)決策。關(guān)于專題策劃、研究報(bào)告、指數(shù)產(chǎn)品和論壇培訓(xùn)等合作,請(qǐng)聯(lián)系我們。
聯(lián)系郵箱:jiemianzhiku@jiemian.com

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

【解讀】費(fèi)電但極具潛力的“大腦”:如何理解AI耗能問(wèn)題?

人工智能的能耗來(lái)自哪些環(huán)節(jié)?如何降低能耗以及未來(lái)如何填補(bǔ)用能缺口?

來(lái)源:視覺(jué)中國(guó)

4月18日,Meta發(fā)布了最新開源模型Llama3,訓(xùn)練該模型使用的GPU芯片H100數(shù)量是Llama2時(shí)候的8倍,AI訓(xùn)練的算力競(jìng)賽再次提速。

更多的GPU芯片意味著更多的算力,也意味著需要消耗更多的電力。

今年以來(lái),幾位悉心研究AI的商界大佬們紛紛發(fā)表言論,暗示AI發(fā)展的盡頭是“缺電”。OpenAI首席執(zhí)行官薩姆·奧特曼表示,AI技術(shù)消耗的電力將遠(yuǎn)遠(yuǎn)超出人們預(yù)期。而埃隆·馬斯克認(rèn)為,按照人工智能每6個(gè)月就以10倍速度飆升的發(fā)展趨勢(shì),電力供應(yīng)會(huì)面臨前所未有的壓力。英偉達(dá)創(chuàng)始人黃仁勛則說(shuō),AI的盡頭將是光伏和儲(chǔ)能。

過(guò)去數(shù)據(jù)中心的快速發(fā)展,已經(jīng)呈現(xiàn)出對(duì)電力和水資源的巨大需求,而AI將加速這一消耗。界面智庫(kù)整理已有的關(guān)于AI耗能、耗水量的研究,做了以下梳理: 

界面智庫(kù)整理

“AI耗能”的問(wèn)題還可以被拆解,其中包括軟件和硬件兩個(gè)部分。軟件指AI模型的訓(xùn)練、使用耗能等環(huán)節(jié),硬件指芯片、數(shù)據(jù)中心運(yùn)轉(zhuǎn)的耗能。就以硬件中的芯片來(lái)說(shuō),芯片生產(chǎn)過(guò)程需要“超純水”清洗,耗水量巨大,有數(shù)據(jù)估算,生產(chǎn)一個(gè)2克重的計(jì)算機(jī)芯片大約需要32公斤水,臺(tái)積電每年晶圓產(chǎn)能約3000萬(wàn)片,芯片生產(chǎn)耗水約8000萬(wàn)噸。

打個(gè)不恰當(dāng)?shù)谋确剑很浖暮哪?,類似一個(gè)人做一道數(shù)學(xué)題需要消耗多少腦力,懂得計(jì)算方法的人可能“用腦”更少;硬件的耗能,類似人體給大腦供能的效率,一個(gè)肌肉量高的人補(bǔ)充的能量可能有更大部分是被肌肉消耗掉了。而有觀點(diǎn)認(rèn)為,AI之所以還沒(méi)有被普及,就是因?yàn)閺哪壳暗乃娇?,解決同樣的問(wèn)題,從能耗和成本上,它還是比人腦“貴”多了。

當(dāng)然,在AI耗能問(wèn)題上,不能只看耗能不看產(chǎn)出,還要考慮到AI的廣泛應(yīng)用能為各行各業(yè)帶來(lái)更大的生產(chǎn)力和發(fā)展?jié)撃堋?/p>

人工智能的能耗來(lái)自哪些環(huán)節(jié)?如何降低能耗以及未來(lái)如何填補(bǔ)用能缺口?界面智庫(kù)分別采訪了“軟件”和“硬件”方面的專家做出梳理和解讀。

一、生成式人工智能的耗能量和碳排放該怎么計(jì)算?能耗來(lái)自哪些環(huán)節(jié)?

清華大學(xué)工學(xué)博士、教授級(jí)高工、新型電力系統(tǒng)創(chuàng)新聯(lián)盟專家委員周文聞告訴界面智庫(kù),生成式人工智能(AIGC)雖然是軟件模型,但按照全生命周期(LCA-Life Cycle Assessment生命周期評(píng)估)的計(jì)算方法,應(yīng)該從開展和使用該算法業(yè)務(wù)的硬件部分開始計(jì)算,直到全生命周期結(jié)束。

如下圖所示,生成式人工智能的能耗組成部分包括:設(shè)備制造、模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用等四個(gè)環(huán)節(jié)。其中模型訓(xùn)練是AIGC能耗的重要組成部分,其次是模型使用。

某大模型碳足跡建模界面,圖片由周文聞團(tuán)隊(duì)提供

 周文聞帶領(lǐng)團(tuán)隊(duì)按照LCA的評(píng)估方法對(duì)某大模型進(jìn)行碳足跡建模,其中設(shè)備制造階段重點(diǎn)計(jì)算了vCPU、內(nèi)存和GPU的能耗(主動(dòng)忽略了總線、接口、外設(shè)、風(fēng)扇、機(jī)箱等);模型訓(xùn)練階段只考慮了服務(wù)器的計(jì)算能耗和存儲(chǔ)能耗(忽略網(wǎng)絡(luò)傳輸);數(shù)據(jù)標(biāo)注階段考慮標(biāo)注所使用的筆記本/臺(tái)式電腦碳排放,模型使用階段和模型訓(xùn)練階段的結(jié)算方式雷同,以能耗乘以碳排放因子來(lái)計(jì)算碳足跡,綜合得出的該大模型的產(chǎn)品碳足跡總量為962.37 tCO2e(二氧化碳排放當(dāng)量),大概是49個(gè)美國(guó)人一年產(chǎn)生的碳排放(按美國(guó)人均二氧化碳排放量19.58噸計(jì)算-Maplecroft公司2009年數(shù)據(jù))。

該公式?jīng)]有計(jì)算數(shù)據(jù)中心冷卻系統(tǒng)、網(wǎng)絡(luò)傳輸?shù)奶甲阚E等。而事實(shí)上,數(shù)據(jù)中心的數(shù)據(jù)傳輸速率和散熱冷卻系統(tǒng),也是重要的耗能來(lái)源。這些環(huán)節(jié)會(huì)如何影響數(shù)據(jù)中心能耗?

TE Connectivity是全球規(guī)模最大的連接和傳感解決方案提供商之一,TE Connectivity數(shù)據(jù)與終端設(shè)備事業(yè)部亞太區(qū)銷售總監(jiān)蔣撲天告訴界面智庫(kù),服務(wù)器的能效水平是影響數(shù)據(jù)中心能耗的重要因素之一。如果提高端到端整個(gè)鏈路上的數(shù)據(jù)傳輸速率,可以幫助數(shù)據(jù)中心降低服務(wù)器處理同等數(shù)據(jù)量的能耗,“比如理論上4G網(wǎng)絡(luò)條件下,每度電可下載620G的數(shù)據(jù),而在5G每度電可下載2857G的數(shù)據(jù),也就是說(shuō)從能效上,5G是4G的4.6倍”。

他還指出,隨著數(shù)據(jù)中心算力提高,必然需要更高的能源電力,也就要求在不增加連接器產(chǎn)品空間的前提下,增加更多能源供應(yīng),這意味著連接器單位面積可承載的電源功率要相應(yīng)提高。而當(dāng)電源功率增加,單位面積不變大的情況下,散熱就非常關(guān)鍵?!八栽谏岱绞缴?,國(guó)內(nèi)從原來(lái)的風(fēng)冷,現(xiàn)在開始嘗試做液冷,將熱能從模塊中傳輸出去,并保持較低的運(yùn)行溫度,提高系統(tǒng)整體效率和可靠性?!笔Y撲天說(shuō)。

散熱就需要耗能。各家企業(yè)也在嘗試各種方法為數(shù)據(jù)中心散熱。中國(guó)宏觀經(jīng)濟(jì)研究院能源研究所研究員崔成撰文寫到:微軟曾嘗試部署海下數(shù)據(jù)中心,F(xiàn)acebook數(shù)據(jù)中心選址在北極圈附近,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷等,我國(guó)很多企業(yè)則把數(shù)據(jù)中心布局在水電資源豐富的西南地區(qū)。

因此,生成式人工智能的能耗更準(zhǔn)確的計(jì)算需要考慮軟件和硬件兩個(gè)部分以及不同環(huán)節(jié)。

二、Chatgpt、PaLM 、Claude、盤古、文心一言、Gemini,不同的大模型耗能是否會(huì)有差異?是否大模型越發(fā)展,就會(huì)消耗越多能源?

不同大模型的能耗確實(shí)會(huì)有差異。周文聞指出,其中設(shè)備制造環(huán)節(jié)的差異不大,因?yàn)椴煌竽P褪褂玫挠布A(chǔ)設(shè)施大多是同質(zhì)化的CPU和GPU服務(wù)器;而差異主要體現(xiàn)在模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用這三個(gè)環(huán)節(jié)。目前很少能從公開資料查到以上大模型的資源使用信息,在數(shù)據(jù)不透明的情況下(除了各家自己掌握數(shù)據(jù)),很難準(zhǔn)確計(jì)算大模型的能耗使用水平。

不過(guò),硬件基礎(chǔ)設(shè)施的能耗計(jì)算方式,也有可能因?yàn)榧夹g(shù)革新而被顛覆。就在近日,媒體報(bào)道稱前谷歌量子計(jì)算團(tuán)隊(duì)的幾位員工創(chuàng)立了一家名為Extropic的公司,提出用物質(zhì)隨機(jī)波動(dòng)驅(qū)動(dòng)計(jì)算,認(rèn)為這種計(jì)算方式更接近人類大腦,將有可能擴(kuò)展硬件的性能界限,超越傳統(tǒng)的數(shù)字計(jì)算,比現(xiàn)在的CPU、GPU等數(shù)字處理器更高效更節(jié)能。

至于隨著大模型的發(fā)展,未來(lái)是否會(huì)消耗越多能源,周文聞指出,因?yàn)槟P偷牡饕啃碌臄?shù)據(jù)訓(xùn)練來(lái)完成,數(shù)據(jù)訓(xùn)練的基礎(chǔ)設(shè)施就是算力,而算力的基礎(chǔ)設(shè)施是能源。

舉個(gè)例子,因?yàn)榕c微軟工程師有過(guò)交流,AI創(chuàng)新公司OpenPipe的聯(lián)合創(chuàng)始人Kyle Corbitt在社交平臺(tái)X上回答提問(wèn)“為何不將(GPT-6)的訓(xùn)練集群集中同一個(gè)區(qū)域”,因?yàn)椤坝袊L試過(guò),但無(wú)法在同一州放置超過(guò)10萬(wàn)片H100的GPU,否則會(huì)導(dǎo)致電網(wǎng)癱瘓。”

“需要注意的誤區(qū)是,大模型消耗能源并不可怕,可怕的是大量消耗傳統(tǒng)能源,關(guān)鍵是要使用清潔能源來(lái)替代。”周文聞?wù)f。

華泰證券研報(bào)預(yù)測(cè),到2030年中國(guó)與美國(guó)的數(shù)據(jù)中心總用電量將分別達(dá)到0.65萬(wàn)億千瓦時(shí)至0.95萬(wàn)億千瓦時(shí)、1.2萬(wàn)億千瓦時(shí)至1.7萬(wàn)億千瓦時(shí),是2022年的3.5倍和6倍以上。解決用能問(wèn)題,也是解決AI技術(shù)與產(chǎn)業(yè)未來(lái)發(fā)展的瓶頸。

三、未來(lái)如何填補(bǔ)缺口?通過(guò)哪些方式為人工智能供能?

“這個(gè)問(wèn)題需要辯證看待?!敝芪穆勚赋?,生成式人工智能發(fā)展的不同階段,對(duì)能源的需求是不同的,例如在目前LLM的形態(tài)下,當(dāng)前的能源是夠用的,而按照OpenAI規(guī)劃的最終AI形態(tài),能源基礎(chǔ)設(shè)施必須跟上,否則會(huì)制約AI技術(shù)的發(fā)展。

在未來(lái)增加供能方面,周文聞?wù)J為可以從供給側(cè)和需求側(cè)兩個(gè)方面解決。供給側(cè):一是做好傳統(tǒng)能源向清潔能源逐步轉(zhuǎn)化、逐漸替代,人工智能的發(fā)展也要和化石燃料脫鉤;二是大力發(fā)展和建設(shè)清潔能源,比如風(fēng)電、光伏、儲(chǔ)能,提高清潔能源占比;三是積極探索新型能源技術(shù)和相關(guān)新材料,比如可控核聚變、固態(tài)電池、鈣鈦礦等。

在需求側(cè):一是減少重復(fù)的模型訓(xùn)練工作,不同國(guó)家/廠商用同樣或類似的數(shù)據(jù)集訓(xùn)練自己的閉源模型,造成能源重復(fù)浪費(fèi),應(yīng)該鼓勵(lì)開源模型的應(yīng)用,鼓勵(lì)共享部分模型和算法;二是積極探索和研究新的模型架構(gòu),在訓(xùn)練完模型底座后,盡可能微調(diào)模型結(jié)構(gòu);三是人工智能公司也要有氣候變化的危機(jī)意識(shí)和能源危機(jī)意識(shí),盡可能使用清潔能源。

蔣撲天則指出了兩項(xiàng)在硬件上有望節(jié)能增效的技術(shù)創(chuàng)新。

一是材料創(chuàng)新,在印制電路板(PCBA-Printed Circuit Board Assembly)里,探索“光進(jìn)銅退”—即通過(guò)OTB(光纜終端盒)的方式用光纖替代一部分服務(wù)器里的銅線。

“過(guò)去’光進(jìn)銅退’主要體現(xiàn)在終端設(shè)備外部,用光纜而不用銅纜進(jìn)行長(zhǎng)距離傳輸,幫助節(jié)省材料成本和電力消耗,未來(lái)的‘光進(jìn)銅退’發(fā)生在設(shè)備內(nèi)部,數(shù)據(jù)連接的傳輸速率在單次迭代的情況下,提升得越來(lái)越快?!彼赋?,在數(shù)據(jù)傳輸速率從224G到448G的發(fā)展過(guò)程中,很可能會(huì)發(fā)生“光進(jìn)銅退”的變革,芯片到芯片之間以光纖的形式連接,減少原有芯片外部的電力驅(qū)動(dòng)和電光/光電轉(zhuǎn)換環(huán)節(jié),從而減少能耗,“以交換機(jī)芯片廠商博通發(fā)布的一款112G速率的光連接交換芯片為例,同樣驅(qū)動(dòng)800G的鏈路,傳統(tǒng)交換機(jī)需要14W的功率,而芯片光纖直連的交換機(jī)只需要5.5W的功率,降低了約60%的能耗?!?/p>

二是更好幫助數(shù)據(jù)中心散熱的液冷技術(shù)。國(guó)內(nèi)服務(wù)器廠商浪潮發(fā)布了業(yè)界首個(gè)可支持浸沒(méi)式液冷50℃進(jìn)液溫度的服務(wù)器,通過(guò)更高效的系統(tǒng)散熱設(shè)計(jì)和熱管理技術(shù),實(shí)現(xiàn)更高的進(jìn)液溫度,比業(yè)內(nèi)常用的40℃進(jìn)液溫度系統(tǒng)減少了冷卻系統(tǒng)的部署、節(jié)省電力消耗?!耙后w帶走熱量的能力是同體積空氣的3000倍,液冷系統(tǒng)比風(fēng)冷系統(tǒng)可以節(jié)省約30%的能源消耗,并且可以降低噪音,提供更好的工作環(huán)境。”蔣撲天介紹。為了適應(yīng)液冷散熱系統(tǒng),連接器和線纜也需要從材料的耐高溫、耐腐蝕,以及信號(hào)的完整性上做優(yōu)化。

另外,蔣撲天指出,作為前沿技術(shù),基于光芯片的人工智能處理器也在業(yè)界積極開發(fā)中,通過(guò)光學(xué)衍射-干涉混合等技術(shù),甚至可以為毫瓦級(jí)低功耗自主智能無(wú)人系統(tǒng)提供算力支撐。

四、人工智能的應(yīng)用正在哪些領(lǐng)域鋪開?有哪些已經(jīng)在發(fā)生的應(yīng)用和改變,以及哪些極具潛力的方向?

人工智能在制造業(yè)的應(yīng)用可以幫助優(yōu)化生產(chǎn)和采購(gòu)流程,維護(hù)供應(yīng)鏈穩(wěn)定,提高生產(chǎn)效率和產(chǎn)品質(zhì)量;在醫(yī)療保健領(lǐng)域的應(yīng)用可以提高影像分析的診斷準(zhǔn)確性,擴(kuò)大醫(yī)療服務(wù)受益人群;在農(nóng)業(yè)領(lǐng)域的應(yīng)用則可以幫助農(nóng)業(yè)生產(chǎn)進(jìn)行作物監(jiān)測(cè),提供更精準(zhǔn)的施肥、灌溉策略等。

蔣撲天基于他的觀察對(duì)人工智能已經(jīng)應(yīng)用的領(lǐng)域,和潛力方向做了簡(jiǎn)單的分享。 

制圖:界面智庫(kù)

第十四屆全國(guó)人大常委會(huì)委員、國(guó)家氣候變化專家委員會(huì)副主任王毅就曾表示,AI產(chǎn)品消耗的電力對(duì)社會(huì)來(lái)說(shuō)是否是負(fù)擔(dān),需要總體來(lái)看,“AI帶來(lái)的創(chuàng)新能力是我們過(guò)去人力所不可比擬的”。

美銀美林預(yù)計(jì),AI的電力使用量將在2023年至2028年間以25-33%的年復(fù)合增長(zhǎng)率增長(zhǎng),這一增長(zhǎng)將對(duì)數(shù)據(jù)中心的設(shè)計(jì)和運(yùn)營(yíng)帶來(lái)挑戰(zhàn)。

2024年3月21日,聯(lián)合國(guó)大會(huì)通過(guò)首個(gè)關(guān)于人工智能的全球決議《抓住安全、可靠和值得信賴的人工智能系統(tǒng)帶來(lái)的機(jī)遇,促進(jìn)可持續(xù)發(fā)展》,“能耗”只是人工智能可持續(xù)發(fā)展中的其中一個(gè)問(wèn)題,也是人工智能技術(shù)與產(chǎn)業(yè)發(fā)展的基礎(chǔ),人工智能的發(fā)展也須平衡環(huán)境、資源與氣候的關(guān)系。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。