作者:Ed Yong
編輯:月月
在我們體內,超大容量的信息一次又一次地被復制,這個過程不但可靠,還可以被預測。我們的生命正是依賴于此。 只是復制過程中偶爾有出錯的時候,但問題不大,很快就能自動更正。
一切是從DNA開始的。
DNA結構圖。圖片來源:pixabay
這個赫赫有名的分子是由四個堿基組成的長鏈,這四個堿基分別是腺嘌呤A,胞嘧啶C,鳥嘌呤G和胸腺嘧啶T。它們通過不同的組合方式,形成指導數千種蛋白合成的信息。但要合成蛋白,DNA首先要復制(或“轉錄”)出一個叫做RNA的分子。
RNA也由四種堿基構成,其中依然有A,C,G,但是T被尿嘧啶U取代。RNA鏈上每三個連續的堿基代表一種氨基酸,它是組成蛋白質的基本單位 。細胞內的核糖體能沿著RNA鏈讀取上面的密碼子,然后將氨基酸按照正確的序列串接起來。
DNA指導RNA合成,RNA又指導蛋白質合成,這就是 “生命的中心法則” 。 人們通常認為這一信息傳遞的過程是非常精確的,每一個RNA序列都和它的模板DNA鏈完全匹配。 給出一個DNA片段,我們就能預測出它對應的RNA鏈上堿基確切的排列方式,以及翻譯出來的蛋白質的氨基酸序列。
圖片來源:www.pexels.com
但事實并非總是如此。
在轉錄過程中還是會有錯誤出現。 有些錯誤是由插入了錯誤的堿基引起的,這類錯誤通常能由校正蛋白修正。 而其他的錯誤則是有意的編輯,例如,脫氨基酶常將A轉變成G,或將C轉變成U(這一類不太常見)。
來自賓夕法尼亞大學醫學院的李銘堯(Mingyao Li)和亞莎貝爾•王(Isabel Wang)發現,上述的第二種錯誤遠比我們所了解的有意編輯復雜得多。
李和王從27個不相關的人身上提取了白細胞,觀察其DNA和RNA序列。他們發現在整個基因組中, RNA和DNA的序列中不相匹配的地方超過一萬個,涉及到了我們身上多于三分之一的基因 。 其中有些是科學家已經知道的,但有半數左右從未被發現。李和王將此稱為“RNA-DNA差異”,簡稱為RDD。
他們為了確定這樣的結果并不是因為他們的測序方法出現了錯誤,特地請了不同的實驗室來準備這些樣本并進行測序。他們將測序重點放在他們已掃描了好幾遍的那部分基因組,以及不同人之間DNA序列相同的那些位點上。他們還使用了從特定人身上提取的細胞,這些人的DNA已經由兩大遺傳學計劃進行了測序。它們分別是國際人類基因組單體型圖計劃和千人基因組計劃。李和王測出的序列與兩大計劃得出的結果一致。
圖片來源:www.pexels.com
RDD并不是隨機出現的錯誤。 每個RDD至少在兩個人中出現,有80%在半數樣品中出現,而且在嬰兒和成人中都有發現,在27個實驗對象以外的人群內也存在。 RDD還存在于其他類型的細胞,如神經元、皮膚細胞、胚胎干細胞及癌細胞中。在每個給定的位點,即便是在不同的人體內,RDD都是相同的。也就是說,若DNA中的一個T堿基在轉錄成RNA后變成了G堿基,那它總是變成G,而非A或C。這其中必遵循一個原則來確定那個位置的堿基被編輯成了什么。
這些受錯誤支配的分子與那些正確轉錄的分子共同存在。在任何RDD中,大約20%的RNA序列與它們的模板DNA不同,而其他的都能精確匹配。但這個數字只是個平均值,李和王發現,在有些位點,幾乎每個RNA序列都有RDD存在。
這些錯誤延續到了蛋白質 。李和王發現幾種蛋白質上的氨基酸序列是按照已改變過的RNA序列排列的,而非原始的DNA序列。大約三分之一的RDD會導致氨基酸序列的改變,但是只有約百分之一完全影響到了蛋白質的大小。 例如,在RPL28基因上的一個RDD導致翻譯出的蛋白質多出了55個氨基酸。
就目前來說,李和王 尚不清楚RDD是如何產生的。堿 基的改變是在合成RNA鏈時發生的,還是此后在RNA鏈上被編輯的?在某個位點上由什么來決定哪個堿基被取代?最重要的是,這一現象有什么意義?它們是否會影響我們的行為、我們的發育和我們的身體特征?是否會引發某種疾病?
他們認為,要回答這些問題, 人們在研究基因組的同時,也要把同樣的精力放在轉錄組上。 到目前為止,有關DNA的研究方興未艾,例如, 人們已花費了數百萬美元來研究如何將基因組里那些提高患病風險的變異除去。 但是,DNA僅是冰山一角。同樣的DNA片段能夠轉錄并編輯成不同的RNA鏈,從而產生不同的蛋白。
基因組測序的元老級人物喬治•丘奇(George Church)認為,下一代測序技術的大潮肯定有助于解決這些問題。我們的工具越來越強大,我們所掌握的知識也越來越深入。
排版:昕旸
題圖來源:pixabay