根據國際數據公司(IDC)的預測,到2025年,全球數據量將達到175澤字節(ZB),相當于每個人每天產生約1.7 MB的數據。這種全球性的數據激增帶來了一個巨大的挑戰:如何高效、可持續地存儲如此龐大的信息?

目前,傳統的硬盤、固態硬盤和云存儲是數據存儲的主要方式。然而,它們的局限性也日益凸顯。例如,硬盤和固態硬盤的存儲密度增長速度趕不上數據增長的速度。這些傳統存儲介質的使用壽命一般也只有數年,需要頻繁更換,增加了成本和資源消耗。此外,全球數據中心的能耗已經占到了全球總能耗的1%以上,這不僅耗費大量能源,還對環境產生了不利影響。

那么,有沒有一種方式,既能高密度存儲龐大的數據,又能長時間保持數據的完整性,同時還節能環保呢?

科學家們將目光投向了生命的載體——DNA。

DNA,作為遺傳信息的載體,具有天然的優勢:

? 超高儲存密度:一克DNA理論上可以存儲約215 PB(拍字節)的數據,相當于可以容納 1千萬小時的高清視頻內容。

? 超長保存時間:在適宜的條件下(比如避免接觸濕氣和紫外線,因為它們會破壞分子結構),DNA 的化學穩定性允許其保存數十萬年。

? 環境友好:DNA是一種不需要持續供電的存儲介質,能耗極低,有助于降低數據存儲對環境的影響。

那么DNA如何儲存信息呢?

我們可以把DNA想象成一本由四個字母組成的書,這四個字母分別是A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鳥嘌呤),也就是四種堿基。這四種堿基各自與脫氧核糖和磷酸結合可形成相應的核苷酸,然后再通過不同的排列組合,形成了DNA的序列,就像文字的組合構成了書中的內容。在生物體中,這些序列編碼了遺傳信息,指導著生命的生長、發育和功能。

在數據存儲中,科學家們借鑒了這一原理,將數字信息轉換為DNA的堿基序列。例如,可以將二進制的“0”和“1”對應到特定的堿基上,或者通過特定的編碼規則,將數據映射為一段DNA序列。但問題是傳統方法需要從頭合成新的DNA鏈,這一過程既昂貴又緩慢。此外,長鏈DNA合成也容易出錯,影響數據的準確性和可靠性。

那我們是否有辦法突破這些瓶頸呢?

2024年10月23日,在一篇發表于《自然》雜志上的論文中,一個由中國科學家領導的團隊受到表觀遺傳學的啟發,開發了一種用DNA儲存數據的新技術——“表觀比特”儲存技術。

什么是表觀遺傳學呢?我們繼續把DNA想象成一本書,里面的文字代表我們的基因信息。表觀遺傳學就好比在這本書的特定文字上做標記(如加粗、下劃線),不改變文字本身,但可以影響對內容的理解和解讀。

在生物學中,表觀遺傳修飾通過在DNA的特定堿基上添加或移除化學基團,比如甲基(CH?),來調節基因的表達。這種調節可以影響細胞功能,甚至決定基因是否被“打開”或“關閉”。

研究人員利用了DNA鏈上特定堿基的甲基化和去甲基化來表示二進制信息:

?甲基化的堿基:表示二進制的“1”。

?未甲基化的堿基:表示二進制的“0”。

這種“表觀比特”類似于傳統的比特。這種新技術不依賴于從頭合成DNA,而是利用現有的DNA分子進行數據存儲,就像在紙上印刷文字一樣,無需重新制造紙張。

表觀遺傳信息儲存的機制。 圖:ChengZhang et al.

在論文中,研究人員提出了一種基于并行寫入策略的DNA儲存策略。他們設計并預制了一個通用的單鏈DNA載體,可以看作是數據存儲的“紙張”。他們還設計了一系列互補的短單鏈DNA,稱為“文字庫”,這些短鏈DNA能夠與載體的特定位置配對結合,就像印刷活字中的字模。通過將“文字庫”加載到DNA載體的相同位置上,可以排列組合出所需的“表觀比特”信息,類似于將活字排版在印刷版上。

接下來,利用酶的作用,就可以對DNA載體上的特定堿基進行甲基化修飾。這種選擇性甲基化是并行進行的,意味著可以同時在多個位置上進行修飾,大幅提高效率。通過上述步驟,數據被穩定地“打印”在DNA載體上,完成了一次精密而高效的“分子印刷術”。

在實驗中,研究團隊僅使用了700種DNA活字和5個DNA模板,通過不同的組合,就可以編程出大量的數據。在自動化的實驗平臺上,他們實現了約27.5萬個比特的數據寫入,每次反應可以寫入350比特的數據。

新研究表明,DNA存儲的潛力正在逐漸顯現。憑借其高密度、長壽命和低能耗的特點,DNA或許能成為未來解決數據存儲危機的關鍵。在這條探索的道路上,“表觀比特”技術邁出了重要一步,讓人類看到了自然智慧與科技創新結合的無限可能。

或許有一天,我們真的可以將全人類的知識和記憶,凝聚在微小的DNA分子中。

本文為科普中國·創作培育計劃扶持作品

作者名稱:沈雯

審核:梁前進 北京師范大學生命科學學院 教授

出品:中國科協科普部

監制:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司

來源: 星空計劃

內容資源由項目單位提供