由于多數疾病的產生與蛋白質功能異常直接相關,蛋白質在藥物研發領域發揮著關鍵作用。研究人員在研發新藥時,通常會將蛋白質作為核心藥物靶點,使藥物與部分結構穩定的蛋白質相結合以干預疾病進程。然而,將藥物靶向缺乏明確結構、序列和構象偏好的天然無序蛋白(IDPs)仍然存在挑戰。
利用抗體靶向的傳統方法主要基于抗體對特定蛋白質的高度特異性結合能力,實現對目標蛋白質的識別和調控。但該靶向路徑不僅需要進行大量實驗操作,而且無序抗原極易在注射后降解失效。因此,占蛋白質組 50% 以上的天然無序區域(IDR)的蛋白質通常被判定為「不可用藥」靶點,從未被用于藥物開發。
在此背景下,榮獲 2024 年諾貝爾化學獎的杰出計算生物學家、華盛頓大學蛋白質設計研究所所長 David Baker 及其團隊提出了一種名為 Logos 的蛋白質設計策略,基于誘導契合(Induced Fit)的結合策略,設計了能夠適應 39 種目標無序氨基酸序列的結合蛋白。該研究在生成專門的擴展重復蛋白質骨架后,使用 RFdiffusion 模型進行推廣。其中,骨架帶有專門用于重復肽序列的口袋,使設計好的結合物-靶肽模版能夠實現對無序蛋白質區域的通用識別。這意味著更多蛋白質能為新藥研發提供靶點,有望加快癌癥和阿爾茲海默癥的研究。
相關研究成果以「Design of intrinsically disordered region binding proteins」為題,發表在 Science 。
研究亮點:
*建立適合一般識別的模版結構庫,實現對任何靶序列的結合適配構象誘導。
*為 18 條合成肽段序列和 21 個具有廣泛多樣性與治療潛力的天然無序區段(IDRs)設計結合蛋白,能夠靶向與癌癥有關的細胞外受體的無序區域并驅動蛋白質在細胞內的定位。
模版庫生成:通用肽識別
該研究結合物理設計方法和深度學習設計方法作為 IDRs 結合問題的解決方案。受限于肽單元與異質目標序列的不兼容性,研究從不同的重復蛋白結構入手,利用擴散模型將不同重復單元中的氨基酸結合口袋重組,并分化為不同的氨基酸及構象模版,從而實現對序列的更廣泛識別。
為識別天然無序蛋白中的肽,研究首先創建了骨架模版庫。模版庫具有兩個特性:
*每一個模板結構應能夠「包裹」住拉伸態的肽鏈構象,并提供大量氫鍵和緊密堆積等相互作用的機會,從而實現對目標序列的高度特異性識別。
*模版結構廣泛,能夠匹配任何靶序列,使至少一種模版能夠誘導其成為確定、適配的結合構象。
生成骨架模版庫的流程分為三個步驟:骨架生成、蛋白質活性口袋特化和蛋白質活性口袋組裝。
IDR 結合蛋白設計流程概述
骨架生成(Scaffold Generation)
在骨架生成階段,研究團隊選擇以多種拉伸構象(extended conformations)為目標,而非局限于 polyproline II 構象,因為 polyproline II 構象主要出現在富含脯氨酸的肽段中。
在拉伸構象中,氨基酸的側鏈會交替朝向相反的方向,這與雙殘基序列重復(two-residue repeat)的特征是一致的。所以,研究人員使用 Rosetta 設計方法,針對一系列雙肽重復序列進行設計,包括 LK 、 RT 、 YD 、 PV 和 GA(均為氨基酸單字母縮寫),設計其在不同的拉伸構象下與這些肽段進行纏繞結合,使得每一個重復單元與一個雙肽單元發生相互作用。
隨后,研究人員通過熒光偏振實驗對這些設計出的四重復單元版本的結合蛋白進行表征,結果顯示:對于 LK 和 PV 重復肽段表現出納摩爾級的結合能力;但對于更極性的 RT 和 YD 結合能力較弱,而對于高度柔性的 GA 則完全未檢測到結合信號。
結合口袋特異化(Pocket Specialization)
在蛋白質活性口袋特異化步驟,研究人員利用擴散模型對口袋進行微調,以實現與特定目標肽序列更精確的匹配。
為提升模版匹配效率,研究改進了設計的結合口袋,在提高與目標序列匹配度的同時將相互作用的重復單元數量從 4 個增加至 5 個,以提高目標結構間的親和力。將重復蛋白與肽骨架之間每個側鏈雙叉氫鍵周圍的 4 到 9 個氨基酸保持固定,同時對設計結合蛋白之間的疏水相互作用進行多樣化調整。
這種策略的優勢在于,氫鍵的幾何構型要求更嚴格,相比之下非極性疏水堆積的空間自由度更高,因此在設計中,與其從頭反復采樣氫鍵,不如直接以模板方式保留氫鍵更為高效。
結合口袋特異化示例,優化并擴展了一個原本完全重復的四重骨架(左),生成了一個新的五重骨架(右)
新擴展的第五個重復結構以淺灰色顯示
蛋白質結合口袋組裝(Pocket Assembly)
在口袋組裝步驟中,研究人員利用 RFdiffusion 模型在口袋之間創造接口,從而產生整體剛性結構并生成模版,將結合口袋組裝到新的骨架中。模版中的各種口袋根據不同順序和幾何形狀排列,以在連續的擴展構象中與肽靶相互作用,對非重復序列進行更普遍的識別。
研究在得到與嵌合肽靶相互作用的嵌合蛋白模型后,對結合口袋進行了參數定位,并通過射頻擴散將它們連接起來。研究使用該方法針對 7 個嵌合靶標生成了 70 個設計方案。從分離熒光素酶充足法和生物層干涉測量法實驗的表征來看,在平均每個靶點僅測試了 10 個設計的情況下,7 個靶點中有 6 個點結合率達到了兩位數納摩爾。
為擴大模版庫的規模以涵蓋更廣泛的序列,研究利用口袋組裝技術構建了包含識別極性殘基口袋的 36 個嵌合骨架,并生成了 1,000 個由設計好的結合蛋白和一個相應肽骨架組成的模版,其中,肽構象中的氨基酸能夠與結合蛋白中設計好的口袋相匹配。
口袋組裝實例
IDR 結合蛋白設計與優化
在建立模版庫后,研究人員在模版庫中插入天然無序區,利用模板庫生成可結合非重復合成序列和任意天然無結構靶標的結合蛋白。該步驟分為線程(threading)匹配和結構優化(refinement)兩部分。
線程匹配:確定最兼容的序列片段-模版對
在線程匹配中,研究將將目標序列穿入每個模版的骨架中,以識別最兼容的序列片段與模板配對。
一般來說,IDP 或 IDR 有大量可能的肽段可以作為靶標。為了找出 IDR 中最具靶向潛力的肽段,研究首先剔除了序列復雜度低的肽段和在蛋白質組中有多個近似匹配的肽段,以免此類靶標的結合劑產生交叉反應。在將剩余氨基酸的獨特序列片段映射到模版庫的靶標骨架進行局部骨架重采樣后,研究使用基于深度學習的蛋白質序列設計工具 ProteinMPNN 對結合蛋白的序列進行優化,并根據設計的結合蛋白與靶標序列之間的擬合度以及 AF2 預測值與模型之間的一致性進行評估。
在 AF2 指標不理想的情況下,繼續使用 RFdiffusion 為特定目標定制骨架。隨后,研究采用線程匹配為治療相關的 IDP 、 IDR 和 IDP 片段生成結合體,每個靶標平均生成 28 種設計。
目標極性、最高親和力與目標環傾向性關系
結構優化:提高結合蛋白與目標肽的匹配度
研究還對最佳匹配進行了優化,以增強設計的結合蛋白與目標肽之間的匹配度。研究選擇了 DYNA_1b1 結合蛋白與強啡肽的解離常數進行測試,對合成靶標的最高命中率進行了射頻擴散優化。結果顯示,在 48 組設計中,有 45 組在篩選試驗中顯示出強親和力,僅有 6 組設計的解離常數顯示出弱親和力。
DYNA_1b1 擴展骨架構象與強啡肽 A 結合蛋白的設計模型
通過生物層干涉測量法測得的同源設計的結合蛋白-目標解離常數
強啡肽結構與結合蛋白正交性的有效性驗證
為驗證強啡肽結構在結合時的變化,研究檢測了同位素標記的強啡肽 A 在溶液中未結合時、與 DYNA_1b1 結合時、與親和力更高的 DYNA_2b2 結合時的核磁共振(NMR)光譜。
從核磁共振結果來看,游離的強啡肽 A 內在無序,但設計骨架包含的區域在結合后轉變為有序。對于兩種結合的復合物,核磁共振數據顯示出擴展的結合態構象,與設計模型一致,證實了強啡肽作用在誘導無序蛋白和多肽進入非原生構象方面的有效性。
為了探索 Logos 的優化潛力,研究人員選擇了一個與 dynorphin 結合的 binder——DYNA_1b1,其對 dynorphin 的結合常數(Kd)約為 1 nM 。研究人員基于 RFdiffusion 對排名靠前的設計進行了優化,在 48 個設計中,有 45 個在 5 nM 濃度下通過 BLI 篩選實驗表現出強結合能力,其中有 6 個的 Kd 值通過 BLI 測得小于等于 100 pM;對其中兩個優化設計(DYNA_2b1 和 DYNA_2b2)進行熒光偏振測量,結果表明它們的 Kd 分別低于 60 pM 和 100 pM,如下圖 B 所示。
注:Dynorphin 是一種 κ-阿片受體(KOR)肽配體,與慢性疼痛相關。
Dynorphin A 結合蛋白設計的結構特征分析
在 dynorphin A 的原始設計和優化設計中,該肽呈現出多種構象,包括無規卷曲、部分 β-鏈結構和部分 α-螺旋結構,如上圖 C 所示。盡管 dynorphin A 和 B 的序列相似性達 62%,但它們各自的結合蛋白是互不交叉的,僅與各自的靶標結合。同時,與 dynorphin A 結合的設計蛋白 DYNA_1b7 的共晶結構與計算設計模型高度吻合,尤其是在核心結合界面處(上圖 D-E)。 NMR 數據也進一步確認,原本無序的 dynorphin A 在與設計蛋白結合后,其骨架變得有序,再次印證了誘導契合機制的有效性(上圖 F)。
同位素標記的游離強啡肽 A 結合圖譜
驗證結合蛋白的功能性及正交性
研究采用 WASH 復合物及 PER 復合物為模型進行了免疫沉淀研究。其中,WASH 復合體包括 WASH 、 FAM21 、 CCDC53 、 SWIP 和 WASHC2 。測試顯示,FAM21_1b1 從細胞裂解物中提取整個 WASH 復合物。
WASH 復合物包含帶有長無序尾部的 FAM21 蛋白
此外,其還研究了一種針對 MSLN 膜鄰近區域(Juxtamembrane Region)設計的結合蛋白(MSLN_1b1),是否能夠特異性結合表達該靶標的細胞(由于該區域的蛋白酶切割使得更遠端的胞外結構域區域不太適合作為靶點)。
注:間皮素(Mesothelin,MSLN)是一種細胞表面糖蛋白,在多種癌癥中被上調表達,因此在腫瘤靶向治療中備受關注。
研究人員將綠色熒光蛋白(GFP)與 MSLN_1b1 融合,并與表達 MSLN 的細胞(人胰腺腺癌細胞系 HPAC)以及不表達 MSLN 的細胞系(密歇根癌癥基金會乳腺癌細胞系 MCF7)共同孵育,同時設有一個不結合 MSLN 的 GFP-融合蛋白作為對照。
熒光顯微鏡顯示,在 HPAC 細胞上,GFP-MSLN_1b1 融合蛋白在細胞連接處聚集,符合 MSLN 的定位特征;而在 MCF7 對照細胞中則沒有觀察到此現象。同時,對照結合蛋白在 HPAC 細胞中也未顯示出結合信號,如下圖 C 所示。因此,MSLN_1b1 能夠特異性地識別并結合細胞表面的 MSLN 。
AI 驅動,解鎖蛋白質靶向未來新圖景
目前,AI 已經越來越廣泛地參與蛋白質靶向研究,推動研究進入「多技術并行」的新階段。除 David Baker 團隊之外,賓夕法尼亞大學 George M. Burslem 、 Ophir Shalem 團隊也在靶向蛋白的研究領域也實現了革命性突破。該團隊在研究中提出了「蛋白質編輯」技術,成功利用分離內肽(split intein)系統,實現了在活體哺乳動物細胞中直接修改蛋白質合成后的氨基酸序列,首次實現在內源性蛋白中精準植入非標準氨基酸和化學標記(生物素、熒光團)。相關研究成果以「Intracellular protein editing enables incorporation of noncanonical residues in endogenous proteins」為題,發表在 Science 。
此外,中國科學院遺傳與發育生物學研究所高彩霞、華中農業大學李國田領銜的中外團隊還引用了 David Baker 團隊的蛋白質設計工作,開發了基于逆折疊模型的通用蛋白質工程方法 AiCE,基于 AI 驅動的蛋白質設計策略,成功優化了脫氨酶、核酸酶等 8 類蛋白質,并開發出新型堿基編輯器。研究論文以「Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints」為題,發表在 Cell 。
從活細胞編輯到神經保護療法,從糖基化創新到 AI 多鏈設計,隨著 AI 在生物醫學領域的持續發展,全球團隊正以前所未有的多樣化路徑,攻克天然無序蛋白背后的生物醫學難題。研究團隊對天然無序區域靶向問題的探索,未來將為攻克癌癥、阿爾茨海默病等疾病創造新的治療路徑。
來源: HyperAI超神經