隨著AI模型不斷進步,用于預測蛋白質結構和功能的計算機工具如雨后春筍版不斷涌現。然而,這些工具通常依賴于一個極大的(高通量的)蛋白質數據集。簡單來說,讓AI預測蛋白質的結構和功能就像玩“找規律”游戲。下列數字,大家一定不陌生:

1,1,2,3,5,8,X,

X=?

你肯定認出來了,這是著名的斐波那契數列。通過觀察能發現,數列中的每一項都等于前兩項之和,因此X=5+8=13。

微信截圖_20250725144352.png

圖庫版權圖片,轉載使用可能引發版權糾紛

要想讓AI預測出精準、符合事實的“X”,就得給它輸入足量且正確的前置信息,就是數列中X之前的項。基于對這些前置項的學習,AI才能找到規律,給出有意義的預測結果。

但真實的情況是,數據庫中經過生化性質檢驗的結果占比較低,來自臨床樣本的數據更是少之又少。庫中大多數的蛋白質功能標簽都來自先前的結構預測工具——也就是說,這些“功能”本身就是現有AI的前輩們推測出來的。這就好比將具有多個規則的數列都混合在一起,還隨機插入一些出題人“靈光一現”的數字,再讓AI找規律。可想而知,這樣找出的“規律”必然與真實的自然規律相去甚遠,也遠不具備產業轉化價值。

破局之策:AI大模型賦能蛋白質功能預測

面對上述難題,上海交通大學的學者們開發出了蛋白質預測AI評測平臺VenusMutHub,它就像一場針對AI的“大考”,專門為這些預測工具“打分”,為研究者們提供更精準的AI工具使用思路。

既然有“考試”,那就要先命制“考卷”。由于數據庫中的大多數蛋白質數據可信度較低,為了篩選出對產業進步有實際幫助的工具,這張“考卷”只能包含經過臨床驗證或生化實驗確定功能的蛋白質結構數據。開發人員從多個數據庫中層層篩選,最終構建了包括527種不同蛋白共計905個蛋白質突變數據集。這個集合包括了蛋白質突變后穩定性、活性、與其他分子結合的親和力等多方面數據,且均經過實驗驗證。將這些數據集投喂給AI工具后,開發人員對AI工具給出的數據進行整理,然后分科目對它們的表現進行“打分”。

ao3o64mvuf4383b3w2npeyjwv0kk.png

圖片來源:上海交通大學教育部科學工程計算重點實驗室官網

考試結果大揭秘:AI工具的“眾生相”

這場考試的結果也相當有趣。開發人員將“趕考”的AI工具大致分為三個組別:結構預測型(主要關注蛋白質三維結構的預測)、進化信息型(主要關注同一蛋白在不同物種間的序列差異)和純序列型(主要從氨基酸序列出發進行對比和預測)。

在樣本量對預測結果的影響方面,當突變數量高于28個,結構預測型工具的可信度全面領先于其他模型,表現出相當高的可信度。然而,當突變數量小于8個時,所有的模型都無法給出有效結果——全在“胡說八道”。這就像是當數列中給出的已知項不到8個時,所有AI都無法預測出下一項“X”的真面目,但大多數AI會憑借算法“捏造”一個看似合理的答案。

這為AI工具的使用敲響了警鐘:目前所有的蛋白質突變預測工具均無法在可靠樣本值太小的前提下得出可靠結論,所謂“AI完全取代實驗室”“僅憑計算機技術開發藥物”是完全錯誤的,無論多厲害的算法工具都離不開實驗室提供的數據支撐,AI技術預測到的結果在大規模投入臨床和生產前也必須經過嚴格的細胞或動物實驗驗證。

現有多數通用工具對協同效應捕捉有限,已出現少量專門模型嘗試解決,但整體準確率仍不理想。開發人員發現,參與檢測的AI工具在預測單一位點突變時還比較可靠,但涉及到同時突變兩個位點時就再次集體“啞火”了。它們只能識別出簡單的疊加作用,即1+1=2。但在自然界中,很多突變之間存在相互協作,會出現1+1>2(正協同)或1+1<2(負協同)的情況,這被AI工具們集體忽略了。

除此以外,AI工具們也像趕考的學生們一樣表現出了各種“偏科”現象。有的AI某一科目打分很高,卻在另一科目幾乎不及格;有的AI平均分看似很高,但卻“深一腳淺一腳”,遇到某些蛋白預測精準,另一些卻胡說八道;還有的AI看似平均分不太高,但輸出均衡,是個成績穩定的中等生。但不管是哪種AI工具,都不能做到“全才”,總有一個科目得分比較低。

微信截圖_20250725144457.png

圖庫版權圖片,轉載使用可能引發版權糾紛

AI蛋白質預測的進階之路在何方?

總而言之,這次AI工具的集體“大考”撕下了“AI無所不能”的神話面具,為從業者們提供了明確的思路。對于產業從業者來說,根據研究目的選擇適宜的AI工具非常重要,并且至少需要提供8個可靠的突變數據。而對于開發者,如何提升工具在小樣本量條件下的預測精確度、教會AI預測多個突變位點對蛋白質結構和功能的影響更為重要。期待有一天,科科滿分的“全能AI”能夠橫空出世,為蛋白質預測領域帶來新的突破。

參考文獻:

https://doi.org/10.1016/j.apsb.2025.03.028

《生物信息學(第四版)》 陳銘主編 科學出版社

作者:何一文 清華大學本碩,中學教師

審核:李旭 中國科協研究員,中國科學技術大學副教授

出品:科普中國

本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛

來源: 科普中國

內容資源由項目單位提供