近日,中國科學院合肥物質院智能所王紅強研究員團隊在跨模態機器視覺領域取得重要進展,提出了一種基于非對稱孿生Transformer的全局-局部對齊注意力模型(AST-GLAA),顯著提升了可見光-X光跨模態包裹重識別任務的性能。該研究成果被信息安全領域頂級期刊《IEEE信息取證與安全匯刊》正式接收。

可見光-X光跨模態包裹重識別是安檢領域的核心技術,其難點在于兩種模態圖像存在顯著的像素級差異,導致傳統方法難以提取魯棒的跨模態不變特征。研究團隊創新性地將非對稱設計思想引入孿生Transformer架構,提出跨模態非對稱孿生Transformer結構,通過在一側分支嵌入LayerNorm層和模態感知編碼,有效增強了模型對跨模態不變特征的提取能力。同時,團隊設計了全局-局部跨模態對齊注意力模塊,通過建模全局與局部特征的交互關系,在提升細粒度特征表征的同時,解決了跨模態圖像空間錯位問題。

該研究工作首次將Transformer架構引入跨模態包裹重識別任務,突破了現有方法依賴對稱卷積網絡的局限。實驗表明,該模型在跨模態包裹重識別專用數據集上的關鍵指標較現有最優方法提升顯著,為安檢智能化提供了可靠技術支撐。

文章鏈接:https://ieeexplore.ieee.org/document/11095748

來源:中國科學院合肥物質院

來源: 中國科學院合肥物質院