當企業選擇云服務時,響應時間、吞吐量等QoS(服務質量)指標如同“盲盒”——超過60%的服務因用戶評價缺失、數據稀疏,導致企業難以判斷實際性能。近日,天津大學與美國Old Dominion大學聯合團隊提出的MFTL算法,通過“找鄰居+深度校準”兩階段學習策略,將QoS預測誤差降低15%,尤其在數據稀疏場景下表現突出。相關成果發表于《Frontiers of Engineering Management》,為云服務智能選擇提供新范式。

云服務選擇困境:數據稀疏成“隱形門檻”
在云計算生態中,用戶與服務的交互數據往往高度分散:某企業可能僅使用過5%的云服務,新用戶甚至沒有任何歷史記錄(冷啟動問題)。傳統預測方法如同“管中窺豹”:基于協同過濾的模型依賴相似用戶數據,卻在數據稀疏時誤差飆升30%;深度學習模型擅長捕捉復雜關系,卻在“數據荒漠”中難以訓練。

“就像用一張殘缺的地圖導航,傳統方法要么繞遠路,要么直接迷路。”研究團隊指出,QoS預測需同時解決兩大難題:如何在數據不足時找到可靠參考(用戶相似性),以及如何挖掘用戶與服務間的隱藏關聯(非線性交互)。

MFTL雙階段策略:先“篩選鄰居”再“深度解碼”
針對這一痛點,MFTL算法構建了“粗粒度篩選+精細化校準”的兩階段框架。第一階段如同“智能獵頭”篩選高價值鄰居:不僅對比歷史調用記錄(如響應時間分布),還結合地理位置(如同一國家或自治系統)。例如,北京用戶與天津用戶調用同一云服務時,網絡延遲更接近,這種“地域相似性”可大幅提升參考價值。

隨后,通過鄰居集成矩陣分解(NIMF)將用戶-服務交互數據拆解為低維特征向量,捕捉線性關系——相當于將復雜的服務調用記錄“壓縮”成簡潔的用戶畫像與服務標簽。第二階段,深度學習模型登場:將矩陣分解結果與用戶-服務高階交互特征(如元素乘積)輸入神經網絡,像“顯微鏡”般挖掘隱藏模式。這種組合既解決了數據稀疏問題,又突破了線性模型的局限。

實驗驗證:稀疏數據下誤差降低15%,穩定性領先
在包含339個用戶、5825項服務的WS-Dream數據集上,MFTL與9種主流方法展開較量。結果顯示:在數據稀疏度95%(僅5%調用記錄)時,MFTL的MAE(平均絕對誤差)為0.410,較傳統矩陣分解方法降低15%;RMSE(均方根誤差)1.149,優于所有對比算法。更關鍵的是,當數據密度從5%提升至20%,MFTL的預測穩定性顯著優于其他模型,誤差波動小于3%。

“這意味著即使面對新用戶、新服務,MFTL仍能保持高精度預測。”團隊舉例,某初創公司首次使用云數據庫服務,MFTL可結合同地區企業的使用數據,提前預判其響應時間,幫助企業避免因服務卡頓造成的業務損失。

未來展望:從靜態預測到動態“交通導航”
目前,MFTL已整合用戶地理位置、歷史調用等多源特征,但尚未考慮QoS的時間動態性(如高峰期延遲波動)。團隊計劃下一步融入時間序列數據,開發實時更新的預測模型。論文通訊作者吳 Harris 教授表示:“未來云服務推薦將像智能導航,不僅告訴你哪條路最快,還能實時避開擁堵。”

該研究為云服務推薦、資源調度提供了技術支撐。專家認為,這種多源特征融合的兩階段學習框架,有望在邊緣計算、物聯網等領域推廣應用,推動我國云計算智能化升級。

來源: 工程管理前沿