當大型推土機與自卸卡車在礦山狹窄作業面同時作業,因調度不當導致的碰撞事故可能造成致命后果。美國2008-2021年礦山安全數據顯示,83起死亡事故直接源于安全規則違反,其中機械協同作業的時空沖突是主要誘因。如何讓多臺設備在保證安全距離的前提下高效運轉?近日,華中科技大學數字建造與工程安全全國重點實驗室團隊在《Frontiers of Engineering Management》發表研究,提出融合時空安全約束的深度強化學習調度方法,為這一難題提供新解。

傳統調度的“兩難困境”:安全與效率難以兼顧
礦山土方工程堪稱“移動的迷宮”——數十臺設備需在有限區域內完成土壤開挖、運輸、傾倒等串聯任務。傳統人工調度依賴經驗判斷,常陷入“顧此失彼”的困境:為趕工期壓縮安全間隔,可能導致機械碰撞;嚴格遵守安全規則,又會因設備等待造成效率損失。我國內蒙古某 lignite 礦的調研顯示,無安全約束時,單臺卡車可能承擔60%運輸任務,而相鄰作業線機械同時開工的概率高達35%,事故風險陡增。

現有智能調度技術雖能優化效率,但多忽視安全約束。例如基于遺傳算法的調度模型,雖能縮短15%作業時間,卻未考慮機械間的空間距離和時間間隔,實際應用中仍需人工介入調整。

DRL+時空約束:給AI裝上“安全護欄”
研究團隊創新性地將時空安全約束嵌入深度強化學習框架,構建“會規避風險的調度大腦”。其核心思路是:讓AI在模擬訓練中學習“交通規則”,既避免設備“搶道”,又不浪費作業時間。

空間隔離(X軸約束) 如同給作業區劃設“虛擬車道”:相鄰平行作業線(土壤傾倒區域)禁止同時有機械運行,防止橫向碰撞。時間間隔(Y軸約束) 則像設置“紅綠燈”:同一作業線內,后一臺設備需在前一臺離開至少15秒后才能進入,確保縱向安全距離。

為實現這一目標,AI通過三階段學習掌握調度策略:首先用圖神經網絡(GIN)“讀懂”作業任務特征(如土壤量、設備類型),再通過多層感知機(MLP)“匹配”最優設備,最后通過多智能體PPO算法反復迭代,在“違規受罰、合規獎勵”的機制中優化決策。

實測驗證:大型場景調度時間1786分鐘,安全違規降60%
在不同規模測試中,該系統展現出“大小通吃”的適應性。小型場景(5臺設備)訓練1000批次后,總作業時間穩定在403分鐘,安全約束僅增加2%耗時;擴展到20臺設備的大型場景,雖初始調度時間長達1786分鐘,但較傳統FIFO算法縮短22%,且無一起模擬碰撞事故。

更關鍵的是,該方法在復雜場景中優勢顯著:當作業區從1個擴展到4個時,總調度時間從1260分鐘降至1126分鐘,因多區域并行作業減少了空間約束沖突。在內蒙古煤礦的實地測試中,卡車利用率標準差從0.58降至0.32,原本“閑置”的Machine 3作業頻次提升60%,實現“負荷均衡”與“安全無虞”的雙贏。

未來挑戰:動態環境與多目標優化
盡管成效顯著,技術落地仍需突破“最后一公里”。當前模型對粉塵、能見度等動態環境因素考慮不足,且調度目標僅優化時間,未納入能耗、設備損耗等維度。團隊計劃下一步引入實時傳感數據,開發“環境感知-調度決策”閉環系統,并探索將碳排放指標融入優化目標。

隨著我國礦山智能化轉型加速,這類技術有望在煤礦、金屬礦等領域規模化應用。或許不久后,地下礦山的“機械交響”將由AI指揮,既“不撞車”也“不堵車”。

來源: 工程管理前沿