作者黃湘紅段躍初

在科技浪潮中,AI無疑是那顆最耀眼的明星。從日常的智能語音助手,到復雜的圖像識別、自動駕駛,AI的身影無處不在,深刻改變著我們的生活和工作方式。然而,你是否想過,這看似無形的AI,背后卻隱藏著一個龐大而關鍵的支撐體系——電力。強大的AI需要強大的電源支援,這絕非一句簡單的口號,而是關乎AI未來發展的核心命題。

AI的發展歷程,堪稱一部不斷突破極限的傳奇。從早期簡單的算法模型,到如今擁有數十億乃至數萬億參數的大型語言模型,AI的能力實現了質的飛躍。以GPT-3為例,這個擁有1750億個參數的語言模型,能夠生成近乎人類水平的文本,在自然語言處理領域掀起了軒然大波。而OpenAI訓練一次GPT-3,大約需要消耗1287兆瓦時的電力,這一數字令人咋舌,卻也直觀地展現了AI對電力的巨大需求。

AI對電力的高需求,根源在于其復雜的運算過程。AI模型的訓練,本質上是對海量數據的深度分析和學習。以圖像識別任務為例,AI需要對大量的圖像數據進行特征提取、分類和識別。在這個過程中,每一張圖像都包含著數以萬計的像素點,而AI要做的,就是從這些像素點中找出關鍵特征,并建立起相應的模型。這一過程涉及到復雜的矩陣運算、卷積運算等,需要消耗大量的計算資源,而計算資源的背后,正是源源不斷的電力支持。

再以語音識別為例,AI需要對語音信號進行實時處理和分析。語音信號是一種連續的模擬信號,AI要將其轉換為數字信號,并進行特征提取、模式匹配等操作,才能準確識別出語音內容。這一過程同樣需要強大的計算能力,而電力則是維持計算設備運行的動力源泉。

AI技術的發展,推動著AI芯片不斷迭代升級。從最初的通用處理器(CPU),到專門為AI設計的圖形處理器(GPU)、張量處理單元(TPU)等,AI芯片的性能得到了極大提升。然而,隨著芯片性能的提升,其功耗也在急劇增加。

以NVIDIA的GPU為例,早期的GPU功耗相對較低,如GTX 1080Ti的功耗約為250W。但隨著技術的發展,新一代的GPU功耗大幅攀升。NVIDIA最新的Blackwell架構旗艦產品B200 GPU,單芯片熱設計功耗(TDP)已達到1000W,特定高規格版本甚至可達1200W。這與上一代H100 GPU約700W的TDP相比,實現了顯著的躍升。同樣,AMD的MI300X加速器功耗也達到了750W ,而以高能效比著稱的Groq LPU,當前芯片功耗也達到了500W,并計劃在年內推出基于4納米工藝的新芯片以進一步優化性能與功耗。

單芯片功耗的飆升,直接傳導至整個服務器系統和數據中心機柜層面。以搭載8顆H100 GPU的NVIDIA DGX H100服務器為例,其系統最大功耗高達10.2kW。而進入Blackwell時代,情況更為嚴峻。由兩顆B200 GPU和一顆Grace CPU組成的GB200超級芯片,總功耗高達2700W。一臺標準的DGX B200服務器(集成8顆B200),總功耗已達到驚人的14.3kW。為了實現極致算力密度,NVIDIA推出的NVL72整機柜方案,集成了72顆B200 GPU,使得單個機柜的總功耗一舉突破100kW,甚至達到120kW。這徹底顛覆了傳統數據中心單個機柜30 - 40kW的設計上限,對從機柜PDU(電源分配單元)到整個數據中心的供配電鏈路提出了革命性的要求。

為了滿足AI對電力的高需求,數據中心在電源架構和散熱技術上不斷創新。在電源架構方面,多模組冗余成為標配。為保證AI訓練任務7x24小時不間斷運行的高可靠性要求,AI服務器普遍采用N N或N 1的冗余模式。例如,戴爾PowerEdge XE9680服務器,配置了多達四個2800W的可熱插拔電源模塊,采用2 2或3 1冗余,確保在單個電源故障時系統仍能全功率運行;浪潮AI服務器NF5468A5支持3 1或2 2冗余配置,其后繼機型NF5688M6更是支持最多安裝6個電源模塊,采用3 3冗余模式。

同時,開放計算項目(OCP)定義的通用冗余電源(CRPS)規范已成為行業主流。CRPS規范統一了電源模塊的物理尺寸和接口,其熱插拔設計極大地方便了數據中心的運維工作。在有限的1U空間內,電源功率從傳統的550W、800W、1200W,一路躍升至2000W、2800W,如今3000W至3200W的電源模塊已成為AI服務器的主流配置,并正在向5500W甚至8000W演進。

在散熱技術方面,隨著AI芯片功耗的增加,傳統的風冷散熱方式已難以滿足需求,液冷技術正逐漸成為主流。液冷技術通過液體介質帶走熱量,散熱效率更高,能夠有效降低芯片溫度,保證服務器的穩定運行。例如,一些數據中心采用了直接液冷技術,將冷卻液直接噴淋到芯片上,實現了高效散熱。

AI的發展,也促使能源行業不斷創新。一方面,為了滿足AI對電力的巨大需求,可再生能源如太陽能、風能等得到了更廣泛的應用。AI芯片全球龍頭公司的創始人黃仁勛曾表示,AI的盡頭是光伏和儲能。這一觀點得到了眾多業內人士的認同,因為可再生能源具有清潔、可持續的特點,能夠為AI的發展提供長期穩定的電力支持。

另一方面,儲能技術的發展也與AI息息相關。由于太陽能、風能等可再生能源具有間歇性和不穩定性,儲能設備能夠在能源過剩時儲存能量,在能源短缺時釋放能量,保證電力供應的穩定性。例如,特斯拉的Powerwall家用儲能系統,以及大型的抽水蓄能電站等,都在能源存儲和調節方面發揮著重要作用。

此外,AI技術也在能源領域得到了廣泛應用,實現了能源的高效利用。通過對能源數據的實時監測和分析,AI能夠優化能源分配,提高能源利用效率。例如,一些智能電網項目利用AI技術,實現了對電力負荷的精準預測和調度,減少了能源浪費,提高了電網的穩定性。

AI與電力,正處于一種相互促進、協同發展的關系中。電力是AI發展的基石,為AI提供了強大的動力支持;而AI則為電力行業的創新和發展提供了新的技術手段,推動著能源的高效利用和可持續發展。在未來,隨著AI技術的不斷進步,我們有理由相信,電力與AI的融合將更加緊密,為人類社會的發展帶來更多的驚喜和變革。

來源: 科普文訊