2019 年 12 月,新冠疫情 (COVID-19) 突然爆發,這種由 SARS-CoV-2 病毒引起的疾病具有高度傳染性,僅一個月時間,我國病例涉及人數就超過了 1,000 例,并迅速蔓延至全球。

為了抵抗病毒的進一步傳播,我國在 2021 年年初推出了全民免費接種疫苗政策,然而,即使在疫苗的加持下,這場健康危機也變得越來越復雜。這是因為 SARS-CoV-2 病毒通過不斷變異,逐漸適應了疫苗產生的免疫壓力以及變化的環境條件,最初在武漢發現的「病毒株」早已消失,取而代之的則是各種各樣的變異毒株,持續引發著新一輪感染浪潮,其影響一直延續到 2023 年之后。

無獨有偶,就在最近,流感病毒陽性率持續攀升,許多人不知不覺間便感染了甲型流感(簡稱甲流),與 SARS-CoV-2 病毒相似,甲流也具有傳染性強、傳播速度快、變異速度較快的特點,同一個季節內可能出現多個亞型病毒,這也增加了人群短時間內重復感染的風險。

由此可見,病毒進化方向預測對防控和疫苗藥物設計至關重要。然而,突變作為病毒進化的基礎,其高度隨機性導致通常情況下只有極少數突變能夠「恰好」增加病毒的適應性,這種正樣本(有益突變)和負樣本(有害突變)的不平衡問題使得訓練一個能夠預測病毒稀少有益突變的深度學習模型及其困難。與此同時,病毒往往僅有少數位點會發生突變,這讓神經網絡難以直接捕獲突變引起的微弱分子內相互作用變化,也對建模造成了困擾。

對此,北京大學信息工程學院田永鴻教授、陳杰副教授,聯合廣州國家實驗室周鵬研究員指導博士生聶志偉、碩士生劉旭東等,重新審視病毒進化的預測難題,提出了一種進化驅動的病毒變異驅動力預測框架 E2VD,該框架可以對 SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的進化方向進行預測,顯著提升了人類對新發病毒感染的響應速度,為疫苗和藥物的快速優化提供了重要支持。

研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」為題于 2025 年 1 月 17 日發表在《Nature Machine Intelligence》上。

數據集:UniRef90 預訓練數據集和病毒深度突變掃描數據集

病毒在進化過程中會不斷產生新突變并進行選擇性累積,因此,針對進化場景的蛋白質語言模型需要具備強大的零樣本泛化能力,即能夠處理未見過的突變情況。為了實現這一點,研究團隊選擇了 UniRef90 作為蛋白質語言模型預訓練的數據集。UniRef90 包含豐富的序列層面進化信息,同時不會在模型訓練初期對性能造成負面影響。這種豐富的進化信息讓模型在預訓練過程中接觸到足夠多的蛋白質家族序列樣本,從而提升其零樣本泛化能力。

此外,為了支持模型學習病毒突變引所致進化適應度景觀,研究團隊采用了各類病毒的開源深度突變掃描數據集。

模型架構:進化啟發的通用架構設計

研究團隊基于「微弱突變放大」和「稀少有益突變挖掘」的設計,提出了進化驅動的病毒變異驅動力預測框架 E2VD。如下圖 a 所示,主要包括 3 個模塊,分別是蛋白質序列編碼、局部-全局相互作用依賴融合 (Local-global dependence coupling) 和多任務焦點學習 (Multi-task focal learning)。


E2VD 模型架構

* 首先,在蛋白質序列編碼模塊,研究團隊自主訓練了面向病毒進化的定制化蛋白質大語言模型 (Protein language model),可實現病毒蛋白序列特征的精準提??;

* 其次,在局部-全局相互作用依賴融合模塊,研究人員利用卷積神經網絡 (CNN) 捕捉突變與臨近氨基酸之間的相互作用依賴關系,并設計了可學習的動態注意力機制,構建突變所在 motif 級別的遠程相互作用依賴網絡。這一設計有效解決了變異體整體突變較少導致的微弱效應難以被捕獲的問題;

* 然后,在多任務焦點學習模塊,結合了多任務學習和難樣本挖掘策略的優勢,通過多任務訓練的參數共享來提升模型對于病毒突變適應度的預測性能。

更重要的是,如上圖 b 所示,團隊設計了新穎的多任務焦點學習損失函數 (Multi-task focal loss),促使模型在訓練時更加關注難以被有效學習的稀少有益突變,從而大幅度提升對于稀少有益突變(即難樣本)的預測表現。

此外,如上圖 c 所示,E2VD 預測框架可以針對各類病毒適應度預測任務進行輸入和輸出的靈活調整,例如預測突變所致結合親和力變化可以僅輸入病毒序列、預測突變所致抗體逃逸能力變化可同時輸入病毒序列和抗體序列等,從而在統一的架構上實現跨病毒類型、跨毒株的高精度進化預測。
具體而言,在研究中,E2VD 框架被用于 SARS-CoV-2 病毒、Influenza(流感病毒)、Zika(寨卡病毒)和 HIV(艾滋病病毒)的相關預測任務:

* 針對 SARS-CoV-2 的任務包括結合親和力 (Binding affinity)、表達量 (Expression) 和抗體逃逸 (Antibody escape) 的預測,這 3 個任務是病毒變異的關鍵驅動因子。

* 針對 Influenza、Zika 和 HIV 病毒的任務則是預測突變導致的適應度效應,用來分析模型的泛化能力。
實驗結果:E2VD 預測有益突變的精度提升 67%,泛化性能極佳
E2VD 可精準捕獲病毒進化模式,預測有益突變的精度提升 67%

團隊比較了面向進化場景的定制化蛋白質語言與主流蛋白質語言模型的預測表現,結果表明,團隊定制化的蛋白質語言模型以最少的 340M 模型參數量實現了最佳的預測表現,甚至超越了參數量為其 44 倍的 ESM2-15B 的效果,這證明了定制化的預訓練數據集和訓練策略的有效性。

隨后,團隊在各類關鍵病毒進化驅動力預測任務下比較了 E2VD 與主流方法,結果表明 E2VD 顯著超越其他方法,性能提升在 7%-21% 不等。進一步地,為了證明 E2VD 精準捕獲病毒進化模式的能力,比如對不同類型突變的精準區分、對稀少有益突變的精準挖掘,研究人員進行了多個實驗。

a: w/o MT 代表沒有 MT 模塊的 E2VD;w/o LG 代表沒有 LG 模塊的 E2VD;w/o MT&LG 代表沒有 MT&LG 模塊的 E2VD

b: 結合親和力預測任務中描述的風險等級的 3 種突變類型

d: 不同損失在捕捉稀有有益突變方面的能力

首先,用模塊消融研究以探討局部-全局相互作用依賴融合 (LG) 模塊和多任務焦點學習 (MT) 模塊對預測性能的貢獻。如上圖 a 所示,研究發現,MT 模塊在挖掘病毒適應性中的稀缺有益突變方面是有效的(召回率從 0 提升到 69.63%)。將 LG 模塊和 MT 模塊結合使用,可以進一步提高模型性能,準確率達到 91.11%,召回率達到 96.3%,相關系數達到 0.87。

團隊提出的多任務焦點損失函數 (Multi-task Focal Loss) 可顯著改善預測表現。為了評估多任務焦點損失在捕捉稀有有益突變方面的能力,研究人員選擇代表性的有益突變和有害突變組成測試集。

* 在有益突變上的預測,如上圖 d 所示,E2VD 將稀少有益突變的預測精度從 13% 提升至 80%,實現了跨越式精度提升,從而精準和高效挖掘對于病毒進化至關重要的稀少有益突變。

* 對于有害突變,多任務焦點損失和傳統 BCE&MSE 表現相似,這是因為 BCE&MSE 無法幫助模型學習稀缺的有益突變,從而使得模型傾向于將所有突變預測為有害突變。

如下圖 b 所示,研究人員用主成分分析 (PCA) 對流感、寨卡和艾滋病病毒中 3 種類型的突變進行降維可視化,結果發現,在 LG 模塊處理后,不同突變的特征被清晰地區分開,邊界明確。這說明,LG 通過捕獲和重建分子內相互作用網絡,可增強 E2VD 對各種突變類型的敏感性,從而更好地理解病毒的進化適應性。


流感、寨卡和艾滋病病毒預測任務中 3 種突變類型的可視化分析
E2VD 泛化性能極佳,可跨病毒類型、跨毒株進行預測

病毒在選擇壓力下不斷進化,會導致多種毒株的出現,例如最近備受關注的流感病毒就包括多種類型,且呈現季節性的變異。因此,模型的泛化能力對于應對復雜的病毒進化趨勢至關重要,研究人員提出「序對比例」(Ordinal Pair Proportion, OPP) 來評估模型在同種病毒不同毒株,不同類型病毒預測任務上的泛化能力。

* OPP 表示在所有突變對中正確預測突變對的比例,OPP 值越大,預測的適應性景觀越不混亂,表明模型預測病毒變異驅動因子的相對順序的能力更加理想

如下圖 b 所示,對于跨毒株的結合親和力預測任務,研究人員評估了 6 種不同毒株以及所有毒株混合數據 (All) 的 OPP,結果發現,E2VD 在各類情況下都顯著超越其他方法。如下圖 c 所示,在表達水平預測任務上,E2VD 也在絕大多數毒株上優于其他方法。總體而言,E2VD 在分布外毒株上全面超越了最先進的方法,表現出高度泛化性能。


* b、c:E2VD 預測病毒不同毒株的 OPP;d、e、f:E2VD 預測不同類型病毒的性能

如上圖 d、e、f 所示,在跨病毒類型預測上,研究人員發現,E2VD 在新冠病毒、寨卡病毒、流感病毒、艾滋病病毒上展現出理想的泛化能力,全面超越其他方法,未來或可進一步拓展至更多傳染性病毒。

AI 預測病毒進化具備巨大潛力

上述研究從進化論的角度重新探索病毒進化預測問題,構建了適用于不同病毒類型、不同毒株的通用進化預測框架 E2VD,該框架在多個病毒變異驅動因子預測任務中表現出卓越的預測性能和泛化能力,使預測病毒進化趨勢成為可能。進一步地,E2VD 的靈活定制化組合也可以實現不同尺度的進化趨勢預測。

* 首先,E2VD 能夠解釋大流行病中病毒進化的路徑,幫助我們理解毒株流行的原因及其背后的分子機制。

* 其次,結合虛擬深度突變掃描模擬,E2VD 能夠預測可能帶來的高風險突變,達到 80% 的命中率。

* 最后,E2VD 還實現了大流行尺度的宏觀進化軌跡預測,重現病毒在真實世界中的進化路徑,從而為病毒進化機制的解讀提供理論性支撐。

未來,團隊計劃將 E2VD 與疫苗和蛋白藥物設計流程相結合,以提高設計的效率和可控性,這將對病毒防治和藥物設計產生極大意義。

值得一提的是,該研究的作者是隸屬北京大學信息工程學院的田永鴻教授、陳杰副教授及其指導的博士生聶志偉、碩士生劉旭東等,團隊持續著眼于 AI for Life Science 領域的研究,其項目「領先于病毒的進化——通過人工智能模擬預測未來高風險新冠病毒變異株」曾于 2022 年 11 月成功入圍 2022 年度「戈登貝爾新冠特別獎」(戈登貝爾獎是國際上高性能計算應用領域的最高學術獎項)。

在病毒進化預測領域,團隊擁有深厚積累。2023 年 7 月,團隊在 The International Journal of High Performance Computing Applications 上發表「Running ahead of evolution—AI-based simulation for predicting future high-risk SARS-CoV-2 variants」。具體而言,研究人員預訓練一個大型蛋白質語言模型,并構建了基于結合親和力和抗體逃逸預測的高通量篩選方法。這是首個針對 SARS-CoV-2 RBD 突變模擬的研究,模型成功識別了 5 個關切變異株 RBD 區域的突變,并在幾秒內篩選出數百萬個潛在變體,為疫情防控提供了一種「AI+HPC」(人工智能+高性能計算)范式的技術手段。

除此之外,團隊發展了一系列面向生命科學的基礎模型。以對于酶工程至關重要的「酶-底物」相互作用預測任務為例,團隊在 2024 年 12 月放出預印本文章,提出了一個多用途酶-底物相互作用預測的漸進式條件深度學習框架 MESI。

具體而言,通過將酶-底物相互作用的建模解耦為兩階段學習過程,兩個條件網絡被設計分別引入酶反應特異性和關鍵催化相互作用信息,從而促進特征隱空間從蛋白質和小分子的通用領域逐漸過渡到催化感知領域。在各種下游任務中,該模型在始終優于最先進的方法。此外,提出的條件網絡隱式捕獲了酶催化的基本模式,而額外的計算開銷可以忽略不計。在這種條件感知機制的支持下,該模型可以在不需要任何結構信息的情況下,以高效低成本的方式準確識別活性位點,挖掘參與關鍵催化相互作用的酶殘基和底物官能團。

在人工智能的輔助下,團隊將會進一步推動 AI for life science 相關領域的深入研究,為病毒預測、蛋白質類藥物設計、疫苗研發等開辟更多可能性,期待他們的更多成果。

來源: HyperAI超神經