在云計算時代,用戶選擇云服務時,響應時間、吞吐量等QoS(服務質量)指標至關重要。然而,由于用戶評價缺失、服務商數據不全等問題,超過60%的云服務存在QoS數據缺失,導致企業難以精準選擇合適服務。近日,天津大學與美國Old Dominion大學聯合團隊提出一種融合多源特征的兩階段學習算法(MFTL),在國際權威期刊《Frontiers of Engineering Management》發表。該算法將QoS預測誤差降低15%,尤其在數據稀疏場景下表現突出,為云服務智能選擇提供新方案。

數據稀疏成行業痛點:傳統方法"看天吃飯"
云服務QoS預測如同"盲人摸象"——用戶調用記錄分散、新用戶/新服務缺乏歷史數據(冷啟動問題),導致傳統預測方法準確率大幅下降。例如,當用戶僅調用過5%的服務時,基于協同過濾的預測誤差會飆升30%以上。天津大學陳福贊教授團隊指出,這一問題的核心在于"單一數據源"和"線性依賴":傳統模型要么只依賴用戶歷史調用記錄,要么無法捕捉用戶與服務間的復雜非線性關系。

"就像推薦電影時只看觀影記錄,卻忽略用戶所在地區、設備類型等關鍵信息。"團隊成員解釋道。此前,矩陣分解方法雖能提取用戶-服務潛在特征,但難以融入地理位置等多源信息;深度學習模型擅長非線性擬合,卻在數據稀疏時"巧婦難為無米之炊"。

MFTL兩階段學習:先"篩選鄰居"再"深度校準"
MFTL算法創新性地將"鄰居篩選+深度強化"結合,構建雙重校準機制。第一階段,算法像"智能獵頭"一樣篩選高相似用戶:不僅比較歷史調用記錄(如響應時間分布),還結合地理位置(如同一國家或自治系統),確保選出的"鄰居"真正具有參考價值。"比如北京用戶和天津用戶調用同一云服務,網絡延遲可能更接近,這比隨機選鄰居靠譜得多。"

隨后,通過鄰居集成矩陣分解(NIMF)將用戶-服務交互數據拆解為低維特征向量,捕捉線性關系。第二階段,深度學習模型登場:將矩陣分解得到的特征向量與用戶-服務交互的高階特征(如元素乘積)輸入神經網絡,像"顯微鏡"一樣挖掘隱藏模式。這種組合既解決了數據稀疏問題,又突破了線性模型的局限。

實驗驗證:誤差降低15%,稀疏數據預測更穩
在包含339個用戶、5825項服務的WS-Dream數據集上,MFTL與9種主流方法展開較量。結果顯示:在數據稀疏度95%(僅5%調用記錄)時,MFTL的MAE(平均絕對誤差)為0.410,較傳統矩陣分解方法降低15%;RMSE(均方根誤差)1.149,優于所有對比算法。更重要的是,當數據密度從5%提升至20%,MFTL的預測穩定性顯著優于其他模型,誤差波動小于3%。

"這意味著即使在新用戶、新服務場景下,MFTL仍能保持較高預測精度。"團隊強調。例如,某企業首次使用云存儲服務,MFTL可結合同地區企業的使用數據,準確預測其響應時間,幫助企業避免因服務卡頓造成的損失。

未來方向:融入時間序列,邁向動態預測
目前,MFTL已能處理用戶地理位置、歷史調用等多源特征,但尚未考慮QoS的時間動態性(如高峰期延遲波動)。團隊計劃下一步整合時間序列數據,開發實時更新的預測模型。論文第一作者楊靜博士表示:"未來云服務就像智能導航,不僅告訴你哪條路最快,還能實時避開擁堵。"

該研究為云服務推薦、資源調度提供了技術支撐。專家認為,這種多源特征融合的兩階段學習框架,有望在推薦系統、網絡優化等領域進一步推廣應用。

來源: 相關成果已發表于《Frontiers o