自 20 世紀數值天氣預報概念提出并逐步發展以來,數值天氣預報(NWP)極大地革新了人類對大氣現象的理解與預測方式。早期,受限于計算機性能,數值天氣預報進展緩慢,直到 50 年代計算機技術取得突破,數值天氣預報試驗才初獲成功,70 年代隨著超級計算機能力增強,其開始廣泛應用于業務。如今,數學建模的持續優化、計算能力的飛躍提升以及資料同化技術的不斷改進,讓 NWP 在天氣預測、災害防御、能源管理和氣候研究等諸多方面都成為了不可或缺的關鍵工具。

但傳統 NWP 模型一直面臨著嚴峻挑戰,因其基于流體力學和熱力學方程組的數值求解,計算量極為龐大。在高分辨率預報和大規模集合預報時,傳統 NWP 模型的計算成本急劇增加,難以滿足快速、精準且大規模的概率集合預報需求,這嚴重限制了其在實際應用中的進一步拓展。

為解決這類問題,英偉達、美國勞倫斯伯克利國家實驗室、加州大學伯克利分校、美國加州理工學院的聯合研究團隊,推出了 FourCastNet 3(FCN3),這是一個將球面信號處理與隱馬爾可夫集合框架相結合的概率機器學習天氣預報系統。

該模型的預報技巧超越傳統 NWP 黃金標準 IFS-ENS,在中期預報上與領先的概率 ML 模型 GenCast 相當,且時間分辨率翻倍,基于單張 NVIDIA H100 GPU 可以在 60 秒內完成 15 天天氣預報,速度為 GenCast 的 8 倍、 IFS-ENS 的 60 倍,支持單卡極速推理,4 分鐘內即可生成 60 天、 0.25° 分辨率、 6 小時間隔的全球預報。

相關研究成果以「FourCastNet 3: A geometric approach to probabilistic machine-learning weather forecasting at scale」為題,發表于 arXiv 。

ERA5 數據集,FourCastNet 3 訓練的核心支撐

FourCastNet 3(FCN3)的核心訓練數據來源于 ERA5 數據集,這是一份由歐洲中期天氣預報中心(ECMWF)制作的、持續數十年的逐小時地球大氣狀態再分析數據。 ERA5 通過四維變分同化系統,將 1979 年以來的各類觀測數據(包括探空儀、衛星、飛機、地面站、浮標等)與 IFS 模式狀態相融合,生成了空間分辨率為 0.25°×0.25°(以 721×1440 經緯度網格表示)的全球大氣場,數據總量約 39.5 TB 。

ERA5 的顯著優勢在于,其再分析過程始終基于同一 IFS 循環(如 CY41R2 及后續固定配置),這使得它在時間軸上能保持動力學的一致性,有效避免了業務分析因模式升級而產生的氣候漂移,為機器學習模型提供了可重復、可追溯的「真實大氣」基準。同時,它綜合多種數據源并充分考慮各自的不確定性估計,能夠對地球大氣歷史進行一致刻畫,成為機器學習模型逼近行星尺度大氣動力學的理想目標。

為訓練 FCN3,研究人員從 ERA5 中選取了 72 個變量,涵蓋 7 個表層變量和 5 個大氣變量在 13 個等壓面上的值。盡管最終訓練的是 6 小時間隔的模型,但仍采用了 1980–2018 年的逐小時采樣數據,以此最大化數據集規模并提升模型的泛化能力。

該數據集被明確劃分為三個部分:1980–2016 年為訓練集,2017 年為測試集,2018–2021 年為獨立驗證集(所有報告的指標均在 2020 年驗證集上計算),這樣的劃分可有效防止時間泄漏。

在訓練前,數據需經過規范化處理:輸入與輸出均按球面平均采用 z-score 或 min-max 歸一化。其中,水汽相關量通過 min-max 歸一化縮放到 [0,1],以滿足非負約束;風場則假設均值為零,以總風速大小的標準差進行標準化,從而保留矢量方向信息。歸一化常數的計算需先在球面上進行空間平均,再在整個訓練集上進行時間平均。

正是這樣經過精心選取、劃分與處理的數據集,為 FCN3 在 1000+ GPU 上端到端學習全球大氣的概率演化提供了堅實基礎,保障了模型的有效訓練和精準預報。

概率機器學習天氣預報系統 FourCastNet 3

FourCastNet 3(FCN3)作為一款概率模型,由一個編碼器、一個解碼器和 8 個神經算子塊組成,基于隱馬爾可夫模型框架,給定某一時刻 t? 的 0.25° 網格大氣狀態 u?,模型能預測 6 小時后 t??? 的狀態 u???=F_θ(u?, t?, z?),其中隨機性通過隨機噪聲向量(noise variables)z? 引入——z? 來自多個具有不同空間-時間尺度的球面擴散過程采樣,以此捕捉大氣演化的不確定性。


FourCastNet 3 模型示意圖

在模型架構上,FCN3 采用球面神經算子設計,核心是局部與全局的球面群卷積——即在旋轉群 SO(3) 作用下保持等變性的卷積。其中,全局卷積核在譜域參數化,借助球面卷積定理及球諧變換,類似經典偽譜方法;局部卷積則基于離散-連續(DISCO)卷積框架,用數值積分近似連續域卷積,支持各向異性濾波器,更貼合大氣現象的幾何特征。

整體架構分為編碼器、處理器和解碼器,其中編碼器通過一層局部球面卷積將 721×1440 的輸入/輸出信號下采樣到 360×720 高斯網格,嵌入維度為 641;處理器由若干采用 ConvNeXt 結構的球面神經算子塊構成,實驗表明 4 個局部塊配 1 個全局塊時預報技巧最佳,且省略層歸一化以保留物理過程的絕對數值;解碼器結合雙線性球面插值與局部球面卷積上采樣,恢復原始分辨率并抑制混疊。

值得注意的是,與多數機器學習天氣模型預測「傾向」(預測與輸入之差)不同,FCN3 直接預測下一時刻狀態,有效抑制了高頻偽影。此外,編碼器與解碼器均不跨通道混頻,水汽通道經光滑樣條輸出激活函數處理,確保正值并減少高頻噪聲。

由于 FCN3 內部表征龐大,單張 GPU 顯存難以承載,且自回歸 rollout 需同時存放多次計算結果,內存壓力顯著。為此,如下圖所示,研究團隊采用混合并行策略實現可擴展訓練:一方面借鑒傳統數值方法的空間模型并行(域并行),通過空間域分解將模型和數據同時切分到不同 GPU,需將所有空間算法改寫為分布式版本;另一方面結合數據并行,包括集合并行和批并行,因各成員在損失計算前互不依賴,僅需在損失階段通信,效率極高。這些功能在 Makani 框架中實現,支撐擴展至數千張 GPU 。

用于訓練 FourCastNet 3 的模型和數據并行性的說明

訓練過程分三階段進行,其中初始預訓練聚焦 6 小時預報技巧,利用 1980–2016 年 ERA5 訓練集中的逐小時樣本,構建以每個 UTC 整點為起點的 6 小時輸入-目標對,在 NVIDIA Eos 超算 1,024 張 H100 上以批大小 16 、集合大小 16 訓練 208,320 步,耗時 78 小時。

第二階段預訓練基于 6 小時初始場進行 4 步自回歸 rollout,在 NERSC Perlmutter 系統 512 張 A100 上訓練 5,040 步(每 840 步降低學習率),耗時 15 小時。

微調階段針對 2012–2016 年的 6 小時樣本,在 Eos 系統 256 張 H100 上進行,耗時 8 小時,以糾正潛在分布漂移并提升對近期數據的性能。因單卡 80GB 顯存不足,訓練中采用空間并行切片數據與模型,預訓練切分為 4 份,微調因自回歸需求更高切分為 16 份,最終實現了大模型的高效訓練。

性能評估:FCN3 全面超越傳統 NWP,且以極低成本追平當前最先進的擴散模型

為全面評估 FourCastNet 3(FCN3)的性能,研究團隊從多個關鍵維度設計了實驗,涵蓋預報精度、計算效率、概率校準性及物理保真度等方面。如下圖所示,在核心性能指標上,基于 2020 年(訓練集之外)每 12 小時初始場的平均結果,FCN3 的連續分級概率評分(CRPS)與集合平均均方根誤差(RMSE)表現優異,不僅全面超越傳統物理數值天氣預報的金標準 IFS-ENS,且與當前最佳數據驅動模型 GenCast 的差距已幾乎可忽略。

在計算效率上,得益于一步式直接生成集合成員的設計,FCN3 在單張 NVIDIA H100 GPU 上僅需約 60 秒即可完成一次 15 天、 6 小時間隔、 0.25° 空間分辨率的預報,相較之下,GenCast 在 Cloud TPU v5 實例上完成同等時長預報(時間分辨率僅為 FCN3 的一半)需 8 分鐘,而 IFS 在 96 顆 AMD Epyc Rome CPU 上以 9 km 業務分辨率運行約需 1 小時,若忽略硬件和分辨率差異,FCN3 相對 GenCast 提速約 8 倍,相對 IFS-ENS 提速約 60 倍。


FourCastNet 3 的概率技能

考慮到 CRPS 與 RMSE 僅能進行逐點評估,無法衡量時空相關性,研究團隊通過案例研究補充驗證模型的物理保真度。如下圖所示,以 2020 年 2 月 11 日 00 UTC 起報的溫帶風暴 Dennis 為例,預報其登陸愛爾蘭及英倫諸島前 48 小時的 850 hPa 風速與 500 hPa 位勢高度的結果顯示,FCN3 能再現這一天氣事件,風速與氣壓場的協變關系合理,且 500 hPa 位勢高度的角功率譜密度(PSD)保持正確斜率;即便預報時效延長至 30 天,角功率譜仍無衰減,預測始終保持銳利分辨率。

對 2020 年全年功率譜密度及其相對 ERA5 真值的相對誤差分析表明,高波數區域誤差始終有界(在 -0.2 至 0.2 之間),這得益于模型架構遵循的幾何與信號處理原則,以及兼顧局部與全局分布的 CRPS 損失,促使模型學到正確的空間相關性。


FourCastNet 3 對溫帶風暴 Dennis 的預測

相比之下,多數確定性機器學習天氣模型存在高頻信息衰減明顯、預報結果模糊的問題;即便采用 CRPS 訓練的混合模型 NeuralGCM,也在高頻模態出現顯著模糊;最新的概率模型 GenCast 與 AIFS-CRPS 則無法完整保留正確譜形,甚至出現高頻模態積聚——這在傳統數值天氣預報中往往是模式發散的前兆。

綜合對角譜、緯向譜及物理一致性的測試結果,FCN3 被證實是一款在概率技巧、計算效率、全球尺度上同時具備前所未有譜保真與物理真實性的天氣模型,其預報在 60 天的次季節尺度仍能保持穩定,為次季節預報及大規模集合預報的發展鋪平了道路。

2020 年全年功率譜密度及其相對 ERA5 真值的相對誤差

概率機器學習天氣預報系統的突破與展望

事實上,全球產學研機構在概率機器學習天氣預報系統領域的研究已相當深入,涌現出一系列頗具影響力的成果。

谷歌旗下的 DeepMind 團隊推出的 GenCast,堪稱該領域的標桿之作。作為基于條件擴散模型的概率天氣模型,它能在 8 分鐘內生成一組隨機的 15 天全球預報,時間步長為 12 小時,分辨率達 0.25°,涵蓋超過 80 種地表和大氣變量。

在與全球頂尖的中期預報系統——歐洲中期天氣預報中心(ECMWF)的集合預報(ENS)對比評估中,GenCast 在 1320 個評估指標中的 97.2% 都表現更優,其生成的邊際和聯合預報分布更為精準。

微軟旗下的 Aurora AI 氣象預報模型融合深度學習與大規模異構數據處理技術,不僅能精準預測天氣,經微調后還可應用于洋流、空氣質量等多種自然環境監測領域。其訓練數據規模龐大,涵蓋超過 100 萬小時來自衛星、雷達、氣象站及計算機模擬等多來源的氣象與環境數據。

據微軟研究團隊測試數據顯示,在 2022 至 2023 年全球熱帶氣旋預測任務中,Aurora 的軌跡預測表現全面優于業界競品和傳統觀測推理算法,同時在海浪預報和空氣質量預測等復雜環境場景中也展現出高度精確性。

學術界的探索同樣成果豐碩,諸多高校圍繞概率機器學習天氣預報系統開展深入研究并取得突破性進展。劍橋大學和艾倫圖靈研究所的研究團隊另辟蹊徑,其開發的 Aardvark Weather 系統,是首個可在臺式電腦上訓練和運行、并能以單一 AI 模型取代天氣預報流程所有步驟的系統,處理速度較傳統方法快數千倍。

該系統可高效處理來自衛星、氣象站和氣象氣球的多模態復雜數據,生成 10 天全球預報,在 4 個 NVIDIA A100 GPU 上,由觀測數據生成完整預報僅需約一秒鐘。

復旦大學伏羲團隊提出的 FuXi Weather 系統,則是首個能夠獨立完成數據同化(DA)與循環預報的端到端機器學習全球天氣預報框架。它通過融合多源衛星觀測數據,以 0.25° 分辨率生成 10 天可靠預報,即便在非洲中部等觀測稀疏地區,其表現甚至超越了歐洲中期天氣預報中心(ECMWF)的高分辨率預報(HRES)。

這些探索與突破,不僅推動著概率機器學習天氣預報系統向更高精度、更高效能、更廣泛應用場景邁進,也為應對氣候變化、減輕氣象災害影響、優化能源利用等全球性議題提供了強有力的技術支撐。隨著技術的持續迭代與跨領域合作的深化,未來的概率機器學習天氣預報系統將更精準地捕捉大氣的復雜動態,筑起更堅實的氣象保障防線。

來源: HyperAI超神經