當自然災害導致電網癱瘓,如何讓多支維修隊伍像精密齒輪般協同作業?傳統調度方法常陷入“路線沖突”“資源錯配”的困境,而我國團隊研發的深度強化學習框架給出新解。北京航空航天大學團隊在《Frontiers of Engineering Management》發表研究,提出融合演員-評論家網絡與蒙特卡洛樹搜索的AC-MCTS算法,在228節點電網模擬中,將多團隊災后恢復效率提升40%,彈性損失降低至傳統方法的60%。該系統首次實現“全局路線規劃+動態任務分配”雙優化,為交通、供水等基礎設施搶修提供通用方案。
傳統調度的“致命短板”:多團隊協作成“亂麻”
基礎設施網絡災后修復如同“多線程拼圖”:需同時調度多支團隊,平衡修復優先級、路線效率和團隊能力差異。然而,傳統方法存在三大瓶頸:
- 局部最優陷阱:單一團隊路線最優,卻導致整體資源浪費。例如某算法讓團隊A優先修復近程小故障,卻使關鍵樞紐節點修復延遲20小時。
- 能力錯配:高級別節點(如變電站)需專業團隊,但人工分配常出現“新手修核心,專家跑龍套”的情況,導致修復時間增加30%。
- 動態響應滯后:災后損壞狀態實時變化(如余震引發二次故障),靜態規劃算法無法快速調整策略。
數據顯示,在含62個損壞節點的模擬場景中,傳統啟發式算法(HHG)需1011小時完成修復,而AC-MCTS僅需984小時,且彈性損失(RL)從256.49降至202.45。
AC-MCTS“雙腦”機制:像圍棋大師般預判全局
新算法構建“決策-評估”閉環系統,破解多團隊協同難題:
演員網絡(路線規劃師):基于電網拓撲結構(節點位置、線路連接)和實時損壞數據,生成數百萬條可能的修復路徑。如同導航軟件規劃最優路線,它會優先推薦“修復關鍵節點+最短移動距離”的組合,例如“團隊1先修復供電半徑最大的變電站,再沿主干道修復線路”。
評論家網絡(效果預判師):通過蒙特卡洛樹搜索模擬未來100步修復效果,計算每種方案的彈性損失和恢復時間。例如,修復節點A可使5000用戶恢復供電,但會導致團隊2后續繞路20公里,而修復節點B雖僅服務2000用戶,卻能讓團隊3提前5小時支援其他區域。
兩者協同如同“軍師+統帥”:演員提出候選方案,評論家評估長期影響,最終選出全局最優策略。在4組損壞場景測試中,該機制使團隊移動距離減少25%,關鍵節點修復時間提前15小時。
跨場景驗證:從電網到城市生命線的普適性
研究在228節點電網、186條線路的復雜場景中驗證了算法普適性:
- 極端損壞場景(62節點+186線路故障):5支團隊協同作業時,AC-MCTS將恢復時間壓縮至670小時,彈性損失降至133.56,較3支團隊配置效率提升35%。
- 團隊能力差異適配:面對移動速度50-60km/h、修復效率不同的團隊,算法自動分配任務——讓高速團隊負責遠程節點,高效團隊專攻核心樞紐,使整體效率波動控制在5%以內。
更重要的是,該框架可遷移至交通網絡(如災后橋梁搶修)、供水系統(管道破裂修復)等領域。團隊通過調整節點權重(如交通網中“醫院節點”權重更高),即可實現跨場景適配。
未來:多智能體協同與分布式計算
目前算法訓練需28小時(4 GPU并行),團隊計劃下一步引入多智能體強化學習,讓每個維修團隊擁有獨立決策模型,實現“去中心化”協同。同時,通過C++并行編程優化,將訓練時間縮短至小時級,滿足實時應急需求。
來源: 工程管理前沿