出品:科普中國
作者:李雷
監制:中國科普博覽
在序章中,我們介紹了遺傳物質的初探,既有多位科學家通過三個實驗證明了核酸是遺傳物質,也有孟德爾這種天縱英才直接提出了遺傳因子存在并給出了遺傳規律的研究。
那么,遺傳物質和基因是同一種東西嗎?我們對基因的理解是什么樣的呢?今天我們就來聊聊基因的問題。
基因——遺傳物質的核心
明白了核酸是遺傳物質,于是就可以回歸到我們最初的問題了,什么是基因?
根據簡單的生物化學知識,就可以知道,核酸的基本組成很簡單,就是四種核苷酸,分別是腺嘌呤(A)、鳥嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C),這四者排列組合,形成了我們的遺傳物質DNA。
核苷酸
(圖片來源:wiki)
形成核苷的含氮化合物,叫做堿基(base),這一部分根據具體的差異又可以分為ATGC四種。接下來是糖和磷酸基團組成的結構,這部分結構在DNA里是一模一樣的,只有根據糖上面的氧差異分為脫氧核糖(DNA骨架)和核糖(RNA骨架)。
不過,又有一個問題出現了,這些A、T、G、C到底是怎么樣的組合,到底有什么意義呢?它們是隨機組合還是有規律的?它們的具體信息又是如何轉換成為我們觀察到的性狀呢?不同生命的差異到底和DNA哪些地方有關呢?
這就像你面前放了一本英語書,你知道它肯定是用ABCDE等26個字母寫成的,但是這本書具體內容是什么樣的卻不清楚。
而要解決問題,我們就必須翻開這本書,去了解DNA的A\T\G\C排序情況是什么樣子。
A、T、C、G
(圖片來源:亞利桑那州立大學)
這就引發了對DNA結構的科學探索,當然,這個問題的解決也不能一蹴而就,而是要分步進行。
首先,我們要解決DNA的總體結構是什么樣子。
不過這一點可不容易,在當時,我們沒有更精細的觀察手段,只能依靠推測,于是就有了不少理論,比如有人曾提出DNA是有四種核苷酸等量組成的“四核苷酸假說”。
直到1950年,查蓋夫才首次確定,DNA中堿基A和T的數量相同,而G和C的數量相同,這一規則奠定了DNA結構中的堿基互補配對這個基礎原則,即A=T,C=G。
有了這一原則,接下來,威爾金斯和富蘭克林兩位科學家開始用X-射線衍射來分析DNA晶體的結構,通過不斷的嘗試和改進,他們成功拍到了清晰的DNA衍射照片,就是下面這張著名的圖。
DNA衍射圖
(圖片來源:wiki)
而正是看到了這張圖,年輕的沃森和克里克共同提出了對DNA結構的猜測,那就是——雙螺旋。簡單地說,DNA是兩條鏈組成的結構,每條鏈上都是由ATGC組成,但它們并不是完全孤立的,而是兩條鏈的每個位置都是互補配對的,也就是A=T,G=C,這就形成了穩定的雙螺旋結構。
沃森和克里克
(圖片來源:wiki)
這一發現可謂石破天驚,從投稿到發表Nature僅僅花了23天,幾乎創造紀錄,而發現者威爾金斯、沃森和克里克三人也很快共同獲得了諾貝爾獎。這一發現后來也被人們和相對論、量子力學并列為20世紀自然科學三大發現,可見其分量。
當然,也有一絲遺憾,就是當初拍攝了那張至關重要照片的富蘭克林卻并沒有拿到諾獎,因為她在1958年罹患癌癥而去世,而這個發現是1962年才獲得諾貝爾獎。
有了DNA雙螺旋模型,不僅讓我們找到了DNA的結構,更意味著我們找到了DNA復制機制,只要我們知道DNA的其中一條鏈的信息,就可以得出另一條鏈的信息,這就是堿基互補配對的魅力,而DNA復制自身的過程就是保留一條鏈的信息然后通過堿基互補配對來合成另一條鏈,這就是半保留復制。而這一點也為我們進一步解讀DNA提供了基礎,于是,第二個問題就順理成章出現了。
我們要考慮DNA的序列是什么樣的?
要了解DNA的序列具體情況,也就是DNA上的ATGC的排列情況,那么就需要對其進行檢測,這種做法在生物學上有個專有名詞叫做測序(sequence)。
當然,既然DNA本身是一種核苷酸,所以科學家們就想到了用化學的方法來進行反應檢測其到底是哪個核苷酸。
著名生物學家桑格創造性地找到了一種策略,他使用一種特殊的核苷酸-雙脫氧核苷酸,RNA全名叫核糖核苷酸,DNA的核苷酸和RNA的核苷酸相比,脫了一個氧,所以叫脫氧核糖核苷酸,而這種雙脫氧核苷酸,比DNA還多脫了一個氧。這導致它的化學特性有點特殊,那就是當DNA聚合酶移到這個位置的時候,因為雙脫氧核苷酸結構上少了一個氧就無法延續下去,只能終止。這樣一來,我們就可以根據雙脫氧核苷酸的指示來判斷這個位置到底是什么樣的脫氧核苷酸了。
DNA測序流程
(圖片來源:wiki)
這種方法的發明直接解決了DNA的測序問題,因此被稱為第一代測序法。RNA測序也是要把它轉換成為DNA,然后按照DNA測序來進行的。而第一代測序的發明,也為人類基因組計劃的開展奠定了基礎,我們在后面會聊這方面內容。順便一提,桑格不僅對DNA進行了測序,也對蛋白質也進行了測序,這為他贏得了兩座諾貝爾獎。
有了測序技術的出現,我們才正式打開了基因的世界,也將迎來生命科學尤其是分子生物學和遺傳學的飛速發展。
這個時候,我們才可以正式討論這個主要的議題——基因。
基因和基因組
實現了DNA測序后,我們終于知道了DNA上的ATGC排列情況,也就是序列,第一次完完整整地看到了基因的世界。原來,無論是中國人還是外國人,無論是動物還是植物,甚至是病毒,真正決定各種性狀的是一段長長的ATGC排列,這樣的排列既有總量的差異也有堿基種類的差異,從而導致了我們各自不同。比如,人類的一個正常細胞中的DNA總長度是30億堿基對,斑馬魚是15億堿基對,而酵母才1200萬堿基對。
面對如此龐大的堿基序列組合,科學家們開始思考,這些堿基序列真的是隨機排列的嗎?還是有規律?整個DNA上的所有序列都在發揮作用嗎?
科學家們試圖對這些序列進行研究,于是誕生了真正的概念——基因(gene)。一開始,研究人員發現,我們的DNA上,并非所有序列都是一樣的,有一些序列總是頻繁出現,而且呈現一些規律。在反復總結之后,他們命名了一些很有規律的序列,這些堿基序列往往是有規律地開始、有規律地結束,而且它們有一個重要的標志,就是可以在轉錄酶的幫助下轉錄成為RNA,并最終翻譯成為蛋白質。
于是,科學家們將其正式定義為基因。
基因序列
(圖片來源:NIH)
也就是說,在生物學上嚴格意義上的基因是指能夠轉錄翻譯成蛋白質的序列。而我們的全部遺傳信息也就有了相應的命名——基因組(genome),“組”這個詞在生物學里也常用,通俗的理解就是全部的合集意思。
當然,很快,科學家們又發現,這樣定義也不嚴格。
首先是,這樣定義的話,其實基因占整個基因組的內容很少,比如,人類的基因加起來不到整個人類基因組的10%,那剩下的是什么東西?
其次,如果一段DNA序列,只產生多肽(蛋白質的一種初級結構),甚至只產生RNA,但是這個RNA也有作用,它是不是基因呢?
再次,很多時候產生一個蛋白可能需要多個片段同時作用,它們屬于一個基因還是多個基因呢?
大家別小看這幾個問題,它們將在未來產生非常重大的影響。所以,基因的定義目前還很模糊。對于生物醫學科研人員來說,基因往往是指能夠產生多肽鏈或功能RNA所需的全部核苷酸序列,而對于其他人來說,基因根據不同的語境有不同的意義。
比如,說“人和動物不同是基因決定”的時候,基因是指基因組;而說“喝酒臉紅是基因決定”的時候,基因可能是指某一個堿基的變異。
由此可見,基因這個概念還真的很復雜,而且目前還沒有完全定論,所以大家在聊基因的時候,最好明確一下自己提到的基因到底是哪個概念。
明白基因的概念之后,基因組是怎么回事?又有什么意義呢?我們下一篇來聊一聊。
編輯:孫晨宇
來源: 中國科普博覽
內容資源由項目單位提供