人類基因組共有 31.6 億個堿基對,無時無刻不在經歷復制、轉錄和翻譯,也隨時有著出錯突變的風險。
錯義突變是基因突變中的一種常見形式,然而人類目前只觀察到了其中的一小部分,能夠解讀的更是只有 0.1%。
準確預測錯義突變的作用,對于罕見病、遺傳病的研究和防治有著重要作用。這次,DeepMind 又出手了。
作者 | 雪菜
編輯 | 三羊、鐵塔
本文首發于 HyperAI 超神經微信公眾平臺~
人類基因組共有 31.6 億個堿基對。這些堿基對每天會經歷復制、轉錄、翻譯,最終表達成為蛋白質,調控人類日常生理活動。
在如此龐大的工作量下,即使是精細的人體也很難做到毫無差錯。稍有不慎,堿基對就可能配位錯誤,導致基因突變,日積月累甚至引發癌癥。
錯義突變 (Missense Mutation) 是一種常見的基因突變形式。由于 DNA 中堿基突變,翻譯得到的氨基酸發生了變化,最終導致整個蛋白質功能被破壞。
圖 1:錯義突變示意圖。由于 DNA 中腺嘌呤核苷酸突變為鳥嘌呤核苷酸,翻譯得到的氨基酸由谷氨酰胺變為絲氨酸
目前人類觀察到了 400 多萬種錯義突變,但僅能將 2% 的錯義突變歸類為致病突變或是良性突變。
準確預測錯義突變的作用能夠加深人類對于罕見病的理解,并針對潛在的遺傳病進行預防和治療。雖然變異效應多重分析 (MAVEs) 可以對蛋白質的突變進行系統的分析,并準確預測其臨床效果,但這一方法需要大量的人力物力,難以對所有錯義突變可能進行全面的分析。
為此,DeepMind 通過 AlphaFold 分析了蛋白質的整體結構,并結合弱標簽學習和無監督學習開發了 AlphaMissense,對錯義突變的后果進行了系統的分析。AlphaMissense 利用 ClinVar 數據集進行了驗證,預測正確率達到 90%。
隨后,AlphaMissense 對人類可能出現的 7,100 萬種錯義突變進行了預測,其中 32% 可能為致病性突變,57% 可能為良性突變。這些結果將極大促進分子生物學、基因組學、臨床醫學等學科的發展。這一成果已發表于「Science」。
圖 2:AlphaMissense 對 7,100 萬種錯義突變的預測結果(上)及人類目前觀察到和確認的結果(下)
相關成果已發表于「Science」
論文鏈接:https://www.science.org/doi/10.1126/science.adg7492
實驗過程
AlphaMissense:AlphaFold + 微調
將一串氨基酸序列輸入 AlphaMissense 后,它會對序列中任一氨基酸變化的致病性進行預測。
AlphaMissense 的實現和 AlphaFold 非常相似,只在架構上做了細微的調整。
圖 3:AlphaMissense 的結構示意圖
AlphaMissense 的訓練集來源廣泛,但主要來自于人類和非人靈長類。其中,來源于人類的良性錯義突變有 1,248,533 個,致病錯義突變則從可能出現但尚未被觀察到的 65,314,044 個突變中抽取。
AlphaMissense 的訓練包括兩步。首先,同 AlphaFold 一樣,AlphaMissense 需要預測多序列對比 (Multiple Sequence Alignments) 中被隨機掩碼的氨基酸,進而預測單鏈蛋白質的結構,并進行蛋白質語言建模。
隨后,研究人員利用人類蛋白質對 AlphaMissense 進行微調 (fine-tuning),并設定了模型的輸出目標,即錯義突變的致病性。
由于未被觀察到的錯義突變中存在相當數量的良性突變,但在訓練過程中都將其歸為了致病突變,因此 AlphaMissense 訓練集的噪音很大。為了提升訓練集的數量和質量,研究人員使用自蒸餾 (self-distillation) 的方式對數據進行了過濾。
臨床數據驗證:不同數據集中的表現
訓練完成后,利用標注后的臨床數據 (ClinVar 數據集)、罕見發育障礙患者中的新發突變 (de novo variants) 和 ProteinGym 中的 MAVE 結果對 AlphaMissense 進行驗證。
首先,研究人員對 AlphaMissense 在 ClinVar 數據集中的表現進行了評價。在對 18,924 個突變位點進行分析后,AlphaMissense 的 auROC 為 0.940,較之前最先進的進化模型 (EVE) 有所提升 (0.911)。
在對錯義突變進行臨床評價時,人們一般會關注特定疾病相關的基因。因此,分辨出這些基因中良性和致病的錯義突變尤為重要。研究人員利用 AlphaMissense 對 ClinVar 中的 612 個基因進行分析,其 auROC 為 0.950,優于 EVE 的 0.921。
最后,研究人員分析了 AlphaMissense 在解密發育障礙 (DDD, Deciphering Developmental Disorders) 數據集中的預測結果。AlphaMissense 的 auROC 為0.809,與 PrimateAI 的 0.797 相當。
圖 4:AlphaMissense 和其他模型在不同數據集中性能對比
A:對 ClinVar 中突變位點的分析;
B:對 ClinVar 中基因的分析;
C:對 DDD 數據集的分析。
同時,AlphaMissense 對 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 數據的預測結果也較其他模型更為優異。上述結果說明,AlphaMissense 在多個數據集中表現優于現有模型。
總體預測性能:反映蛋白質突變趨勢
用臨床數據對 AlphaMissense 進行驗證之后,研究人員利用 AlphaMissense 對 2.16 億個氨基酸在人類常見的 19,233 個蛋白質中可能發生的突變進行了預測,最終得到了 7,100 萬種錯義突變的預測結果。
AlphaMissense 的致病性預測結果在 0-1 之間,越接近 1 說明致病可能性越高。由于絕大多數預測結果接近 0 和 1,因此 0.2 至 0.8 之間的數據可能不太準確。最終,他們將預測結果分為三類:可能致病、可能良性和無法確定。
為對 AlphaMissense 的預測性能進行整體評價,研究人員計算了所有蛋白質的單個氨基酸致病性。結果顯示,芳香族氨基酸和半胱氨酸的突變更容易引發疾病,與實際結果一致,因為這兩種氨基酸起到了維持蛋白質結構的作用。
圖 5:AlphaMissense 的預測結果熱圖,色塊代表 2.16 億個氨基酸變化在蛋白質組中的平均致病性
將 AlphaMissense 的預測結果和 AlphaFold 預測的蛋白質結構可視化之后,我們可以看到這些蛋白質的突變趨勢。比如,蛋白質結構紊亂的區域與良性突變的發生區域相對應,這與蛋白質組學的預測結果也是一致的。
圖 6:ACMG 和 MAVE 數據集中部分蛋白質的可視化結果
左側為 AlphaMissense 預測的致病性,可能致病的錯義突變為紅色,可能良性的錯義突變為藍色,已被收錄于 ClinVar 數據集的突變以實心圓標注。右側為 AlphaFold 預測的蛋白質結構,不同顏色表示這一區域突變致病性,與 AlphaMissense 相對應。
預測準確率:與 MAVE 結果一致性
為調查 AlphaMissense 和 MAVE 結果之間的一致性,研究人員利用 AlphaMissense 對兩組 MAVE 數據進行了分析。與其他預測方法相比,AlphaMissense 與 MAVE 數據最為接近。
圖 7:AlphaMissense 和其他模型與 MAVE 預測結果的斯皮爾曼相關系數,其中AlphaMissense 結果最好
隨后,他們又將 AlphaMissense 的預測數據和實驗驗證過的錯義突變致病性進行了對比。SHOC2 蛋白可以與 MRAS 和 PP1C 蛋白形成復合物,激活 Ras-MAPK 癌癥通路。AlphaMissense 與 MAVE 對這一突變和 Ras 癌癥細胞的相關性進行了預測,得到的斯皮爾曼相關系數為 0.47,優于其他模型 (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。
圖 8:不同模型對 MAVE 數據集中錯義突變的預測結果
進一步的,研究人員探究了 AlphaMissense 對 SHOC2 蛋白不同區域氨基酸錯義突變致病性的預測結果。在 SHOC2 的前 80 個氨基酸中,MAVE 預測第 63-74 號氨基酸突變是致病的,因為這一區域會通過 RVxF 與 PP1C 蛋白結合。AlphaMissense 是唯一一個識別出這一重要區域的模型。
圖 9:AlphaMissense 對 SHOC2 蛋白的預測結果
A:不同模型對 SHOC2 蛋白前 200 氨基酸突變致病性的預測結果。自上而下分別為實際情況 (MAVE)、AlphaMissense 和 EVE;
B:SHOC2 蛋白(紅色和藍色)和 MRAS(黃色)、PP1C(金色)蛋白組成的復合體結構圖。
而且,AlphaMissense 能夠反映出不同種類氨基酸錯義突變后的結果。對于 SHOC2 蛋白而言,AlphaMissense 的預測結果與實際結果最為接近。
圖 10:不同模型對 SHOC2 中氨基酸突變致病性預測與 MAVE 結果的相關性
上述結果共同說明,AlphaMissense 的預測結果與 MAVE 相當,能夠對基因錯義突變的結果進行準確的預測。
最后,Deepmind 將這一模型和預測結果都開源公布在了社區中,希望這種結論能夠為其他學科的研究提供幫助。
模型鏈接:https://github.com/deepmind/alphamissense
基因突變:遙不可及又如影隨形
提到基因突變,我們很容易想到 X 光、核輻射、亞硝酸鹽等危險元素,或者是電影生化危機、綠巨人之中的橋段,覺得這些離我們過于遙遠。誠然,我們在生活中接觸到的輻射非常少,但基因突變還是發生在生活中的每時每刻,也切實地改變了我們的生活。
在生活中,我們不可避免地會接觸到輻射源,比如太陽光。太陽光中 6% 的輻射來源于紫外線,而紫外線就是致癌因素之一,因此長時間暴曬會增加皮膚癌的危險。
即使不接觸輻射源,DNA 在復制、轉錄、翻譯的時候也不可避免地犯一些錯誤,引起基因突變,只是這些突變可能是良性的,或是被免疫機制及時清除了。
但同時,基因突變也為我們的生活提供了便利,尤其是在農業生產中。農作物突變體能夠提高作物的產量,提升作物耐鹽堿的能力,甚至幫助防治蟲害。對這些突變體進行繁育篩選后,這些優良的特性就能保留下來,提升糧食產量。
圖 11:不同品種的玉米突變體
然而,人體基因突變的可能性太多,我們目前了解到的不過滄海一粟。借助 AlphaMissense,我們能夠對基因突變的結果進行相對可靠的預測,再加以反推,也許就能找到遺傳病、罕見病背后的機制,為疾病的防治提供新方法。
同時,AlphaMissense 還為其他領域的研究提供了素材。也許不久之后,我們就能看到 AlphaMissense 對其他物種基因突變的解讀,進而合理利用基因突變,讓基因工程為我們的生活帶來更多福祉。
參考鏈接:
[1]https://www.science.org/doi/10.1126/science.abj6987
[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/
本文首發于 HyperAI 超神經微信公眾平臺~
來源: HyperAI超神經