生物細(xì)胞里有三種大分子:DNA、RNA和蛋白質(zhì)。DNA和RNA記錄了生物的遺傳信息,但真正在細(xì)胞里面執(zhí)行功能的是蛋白質(zhì)。人體內(nèi)約有10萬種以上的蛋白質(zhì),每種蛋白質(zhì)都有自己特定的功能,但它們都是由20種氨基酸按不同比例組合而成,各種氨基酸在蛋白質(zhì)里折疊成特定的三維結(jié)構(gòu),正是這個(gè)三維結(jié)構(gòu)決定了每種蛋白質(zhì)的功能。

因此,對(duì)蛋白質(zhì)的三維結(jié)構(gòu)的解析,對(duì)于深入理解蛋白質(zhì)功能、人體生理現(xiàn)象、內(nèi)在機(jī)制、疾病歸因和藥物研發(fā)等都起著關(guān)鍵性的作用。這就是為什么幾十年來,科學(xué)家千方百計(jì)地想搞清各種蛋白質(zhì)的三維結(jié)構(gòu)的原因。

圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

乍看之下,大部分蛋白質(zhì)都像一團(tuán)雜亂無章擠在一起的原子,但仔細(xì)看看則會(huì)發(fā)現(xiàn)其實(shí)它們都是按照一定層次組織起來的復(fù)雜結(jié)構(gòu)。在最底層,一些氨基酸通過肽鍵結(jié)合在一起,組成一些多肽鏈,多肽鏈內(nèi)部的氨基酸序列,被稱為蛋白質(zhì)的一級(jí)結(jié)構(gòu)。然后,不同的多肽鏈又通過氫鍵連接,折疊成簡(jiǎn)單的形狀,如螺旋狀或環(huán)狀等,這種結(jié)構(gòu)被稱為蛋白質(zhì)的二級(jí)結(jié)構(gòu)。

接下來,在更大的層面上,螺旋或環(huán)又進(jìn)一步折疊成一個(gè)三維空間內(nèi)緊湊的結(jié)構(gòu),被稱為蛋白質(zhì)的三級(jí)結(jié)構(gòu)。所有蛋白質(zhì)都有三級(jí)結(jié)構(gòu),三級(jí)結(jié)構(gòu)跟蛋白質(zhì)的穩(wěn)定性關(guān)系最大,如果三級(jí)結(jié)構(gòu)被破壞,蛋白質(zhì)就會(huì)失去部分或全部功能。部分蛋白質(zhì)還有四級(jí)結(jié)構(gòu),傳統(tǒng)實(shí)驗(yàn)室觀測(cè)蛋白質(zhì)結(jié)構(gòu)的方法主要有三種,即核磁共振、X射線晶體學(xué)、冷凍電鏡,但這些方法往往依賴昂貴的設(shè)備,還要反復(fù)試錯(cuò),搞清楚每種蛋白質(zhì)的三維結(jié)構(gòu)都需要花費(fèi)數(shù)年時(shí)間。人體內(nèi)約有10萬種以上的蛋白質(zhì),被科學(xué)家解析過三維結(jié)構(gòu)的少之又少,為了對(duì)大量未知的蛋白質(zhì)展開研究,必須發(fā)明全新的方法,比如,在搞清蛋白質(zhì)的一級(jí)結(jié)構(gòu)之后,就利用人工智能對(duì)它的二級(jí)、三級(jí)、四級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。

2018年,人工智能正式參與蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè),在其中大顯身手,它速度極快,能用幾天甚至僅僅幾分鐘就預(yù)測(cè)出以前要花費(fèi)數(shù)十年才能得到的具有高置信度的蛋白質(zhì)結(jié)構(gòu),極大地促進(jìn)了生物化學(xué)、細(xì)胞生物學(xué)、遺傳發(fā)育、神經(jīng)生物學(xué)、微生物學(xué)、病理藥理等領(lǐng)域的發(fā)展。

2023年10月9日,國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》旗下子刊《機(jī)器智能》發(fā)表了百度飛槳螺旋槳聯(lián)合百圖生科研發(fā)的文心生物計(jì)算大模型的一項(xiàng)成果,提出了全球首個(gè)開源、提供在線服務(wù)、無需MSA輸入的蛋白結(jié)構(gòu)預(yù)測(cè)大模型HelixFold-Single。這是百度在生物計(jì)算領(lǐng)域的又一突破性成果,打破了AlphaFold2等主流模型依賴MSA檢索的速度瓶頸,創(chuàng)新了新的人工智能訓(xùn)練方案,將蛋白結(jié)構(gòu)預(yù)測(cè)速度平均提高數(shù)百倍,實(shí)現(xiàn)了秒級(jí)別的預(yù)測(cè)。以門蛋白7et2_H(蛋白長(zhǎng)度697)為例,用AlphaFold2預(yù)測(cè)其結(jié)構(gòu)需要1280秒(超過21分鐘),而HelixFold-Single只需要11秒,速度提高了115倍。

人工智能大模型技術(shù)正驅(qū)動(dòng)生物計(jì)算領(lǐng)域的高速發(fā)展,可以幫助生命科學(xué)領(lǐng)域的研究人員更便捷、更高效地工作,進(jìn)行更多開拓性的研究,例如探索針對(duì)特定癌癥、病毒類感染疾病的治療方法,開發(fā)新的抗生素、靶向藥,或者研發(fā)更高效率的工業(yè)酶等,為人類健康與產(chǎn)業(yè)發(fā)展貢獻(xiàn)源源不斷的價(jià)值。

參考文獻(xiàn)

[1]https://www.nature.com/articles/s42256-023-00721-6

本文為科普中國(guó)-星空計(jì)劃作品

出品|中國(guó)科協(xié)科普部

監(jiān)制|中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

作者丨曾心月 科普創(chuàng)作者

審核丨陶寧 中科院生物物理研究所副研究員

來源: 星空計(jì)劃

內(nèi)容資源由項(xiàng)目單位提供