紐結理論長期困擾著數學家,但隨著人工智能的進步,有研究者在生物學中找到了突破口,因為紐結結構存在于許多重要的生物分子中,例如蛋白質、DNA等。對于難以識別歸類的復雜紐結結構,AI給出了令人驚訝的結果。

撰文 | Davide Michieletto(愛丁堡大學物理與天文學院)

編譯 | 陳蘊靈

任何一個有經驗的水手都明白,一個正確的繩結意味著生命的保障,無論是升起風帆還是固定錨鏈,繩子的作用取決于它的繩結。同樣的道理也適用于維持人類生命體征的分子,例如最常見的蛋白質分子。

蛋白質是由氨基酸組成的大分子化合物,是構成生物體的基本物質之一。氨基酸通過肽鍵連接形成肽鏈,進而通過螺旋、折疊等方式形成復雜的空間結構,使分子能夠相互耦合。長期以來,人們認為,盡管蛋白質可能高度纏繞,但在正常條件下它們不能形成紐結,因為這會阻礙蛋白質的折疊[譯者注1]。

然而,在上世紀70年代,科學家發現了許多在拓撲意義上形成紐結結構的蛋白質(Knotted protein,也稱打結蛋白),它們的天然結構呈現為開放的紐結(即,兩端不連接)。盡管幾何意義上,蛋白質(甚至DNA)可以看作一條(或幾條)不閉合的曲線,但它們仍然能夠形成紐結,從而影響其功能。事實上,在蛋白質數據庫中,大約1%的蛋白質包含紐結結構。與繩子或者線不同,每一個紐結蛋白質都具有一個特有的紐結(見圖1)。紐結蛋白質中最大的一類是SPOUT酶(它們組成了七類不同結構的甲基轉移酶中的第二大類)。除了一種例外,其余所有SPOUT酶都形成了“三葉結”——三個環相互重疊的結構。

這一發現引發了一系列問題,比如:蛋白質分子的紐結結構是如何形成的,它們折疊的機制是什么,這些紐結又有什么作用,等等。有些證據表明,紐結蛋白質在極端溫度下仍可以保持活性。但對于分子結構中紐結的普遍性及其對生物的影響,科學家們依然束手無策。當我們試圖將對紐結的理解用于生物學和軟物質問題上時,我們遇到了一個困擾科學家一個多世紀的數學問題。

曲折的歷史:錯誤的渦旋原子理論

現代紐結理論的起源通??梢宰匪莸?50多年前的一項著名實驗——煙圈實驗。1867年,彼得·格思里·泰特(Peter Guthrie Tait)邀請他的朋友——物理學家威廉·湯姆森(William Thomson,后來的開爾文勛爵),從格拉斯哥前往愛丁堡觀看他演示制造成對的煙圈。令開爾文驚訝的是,這些煙圈異常穩定,能在房間里移動,甚至像橡膠一樣相互彈開。煙圈事實上是一種“渦環”(vortex ring),其中氣溶膠和顆粒物在同心小圓中旋轉,這種運動賦予了煙圈穩定性。

當時,科學家們普遍認為宇宙中充滿了一種被稱為“以太”的物質,引力和電磁輻射以這種物質為媒介進行傳播。開爾文推測,原子可能是以太中的穩定渦旋,類似于煙圈。他進一步認為,以太渦旋形成的紐結決定了不同的化學元素。泰特對開爾文的猜想產生了濃厚興趣。在接下來的25年里,泰特與英國國教牧師托馬斯·柯克曼(Thomas Kirkman)、美國數學家查爾斯·利特爾(Charles Little)以及詹姆斯·克拉克·麥克斯韋(James Clerk Maxwell)合作,制作了一張包含251個紐結的表格,其中最多有10個交叉點(見圖2)。

隨著科學家對原子結構的深入了解,渦旋原子模型逐漸被拋棄。1913年,亨利·莫塞萊(Henry Moseley)的研究最終推翻了這一理論,他證明化學元素的不同不是由它們的拓撲結構決定的,而是由原子核中質子數決定。盡管現在看來渦旋原子理論是錯誤的,但紐結理論仍作為數學的一個分支延續至今[譯者注2]。

圖 2:彼得·格思里·泰特和其他早期的紐結理論家花費多年時間編制了一份全面的紐結列表。上圖摘自他們的結表,列出了最多9個交叉點的紐結——即“九階紐結”[譯者注3]。圖片來源:University of St Andrews Library, ID sfQC3-T2-Vol-1-6.

識別紐結:尋找拓撲不變量

對于泰特及其同僚來說,為紐結分類是一項極為艱苦的工作。每當出現一個新的紐結時,他們都必須通過繪圖和幾何直觀來檢查其是否獨特。泰特本人曾寫道:“雖然我將許多形式截然不同但等價的結歸為一組,但我不能絕對地確定這些分組本質上是否完全不同。”確實,1974年肯尼斯·佩爾科(Kenneth Perko)發現,泰特等人所列舉的紐結表中有兩個紐結實際上是等價的——它們現在被稱為“佩爾科對”[2]。

如果想要更有說服力,我的學生喬爾杰·米哈伊洛維奇(Djordje Mihajlovic)開發了一款名為“識別紐結”(Spot a Knot)的在線游戲,這款游戲的目標是從圖片中找出等價的紐結(見圖3)。即便研究紐結多年,我自己還是經常出錯。要想在紐結表中占有一席之地,一個紐結必須具有獨特的拓撲結構,也就是說,除非將其拆開,否則它不能光滑形變成其他已知的結。拓撲學研究的是一個空間在光滑形變后的不變量。對拓撲學家而言,一個馬克杯等價于一個甜甜圈,因為二者可以互相形變并且不會丟失內在的洞。但正如佩爾科對和米哈伊洛維奇的游戲所展示的那樣,證明兩個紐結不同并非易事。

圖 3:愛丁堡大學的博士生喬爾杰·米哈伊洛維奇開發了一款名為“識別紐結”的在線游戲。讀者不妨嘗試思考一下:在上圖中,第一行的紐結等價于第二行的哪個呢?圖片來源:Djordje Mihajlovic

在紐結理論中,用來刻畫紐結性質的量稱為“不變量”。紐結理論學家的終極夢想是找到一個不變量,能夠根據拓撲結構用其對紐結進行分類(就像質子數一樣,可以唯一確定一種化學元素)。這種“完全不變量”將賦予每一個紐結唯一的值,并且在光滑形變后保持不變。第一個紐結不變量是1928年由詹姆斯·亞歷山大(James W. Alexander)提出的,稱為亞歷山大多項式(Alexander polynomial)。自那時起,數學家們提出了許多其他不變量,但對于每一個方法,人們都發現有無法進行唯一分類的案例。

一種構造拓撲不變量的方法是這樣的:“沿著紐結走一遍,將每個交叉點編號為1, 2, 3, …, 2n(每個交叉點會遍歷兩次)。如果編號是偶數而且是從上方越過形成的交叉點,則將其符號標為負數(見圖4)。最后,每個交叉點會被標記為一對整數,一個是偶數,一個是奇數。這一系列偶數就是該紐結的編碼?!边@個方法被稱為Dowker–Thistlethwaite編碼(簡稱DT編碼),于1983年首次提出[3]。雖然DT編碼可以分類許多簡單的結,但與其他方法一樣,它本身并不是拓撲不變量[譯者注4]。

圖 4:Dowker–Thistlethwaite記法是一種于1983年提出的紐結不變量。這種方法通過兩次遍歷紐結,為每個交叉點分配一個整數,最終的整數序列即表示為該紐結。圖片來源:wikipedia

紐結不變量:代數與幾何方法

亞歷山大多項式屬于所謂的“代數不變量”。它通過構造一個矩陣(其行數和列數與結的交叉點數量相同)并計算其行列式來確定。這類代數不變量是從結的二維投影中構造出來的,有點像紐結的影子,不過我們可以辨別每次交叉時哪個部分在上面。然而,像我這樣的軟物質物理學家希望對蛋白質和DNA等分子中的紐結進行分類,它們是三維的,并且不斷受到熱能的干擾,將這些分子簡化為二維投影會抹去一些對其功能至關重要的空間特征。

一種有說服力的替代方法是使用“幾何不變量”。這類不變量通過在三維空間中遍歷紐結并通過計算某些幾何屬性(例如曲率)來確定。其中一種我非常喜歡的方式是計算絞擰數[譯者注5](writhe,或稱纏繞數),同樣是由泰特提出的。絞擰數可以通過在二維投影中數“上方”和“下方”的交叉點,并用兩者相減來計算(見圖5b)。

圖 5:刻畫紐結的一種方法是計算絞擰數,它量化了紐結的扭曲程度。(a) 每次紐結出現交叉時,交叉點可以被定義為上交叉(左圖)或下交叉(右圖)。絞擰數通過用上交叉點數量減去下交叉點數量來計算。(b) 絞擰數的計算示例:對于五葉結(左),它的絞擰數為+5;對于八字結(右),它的絞擰數為0。(c) 絞擰數還可以作為幾何量在三維分子(如蛋白質)上進行計算。幾何絞擰數可以作為整體量或局部量(在相鄰的短鏈段之間)來計算。局部絞擰數值越大表明這些鏈段彼此纏繞得越緊。達維德·米基耶萊托及其同事證明,基于局部絞擰數訓練的神經網絡能夠高精度地刻畫紐結的拓撲結構。)圖片來源:(a)參考文獻[4]; (b) Djordje Mihajlovic; (c) 參考文獻[5]

絞擰數不僅是代數量,也可以作為幾何量來計算。想象在一個三維紐結(如蛋白質)上行走,每走一步計算你看到的交叉點的絞擰數。最后,將這些數值的平均值求出,就得到這個紐結的全局絞擰數。不幸的是,絞擰數并不是完全不變量。實際上,和代數不變量一樣,沒有任何幾何不變量被證明能夠對所有紐結進行唯一分類。

2021年,Google DeepMind的AI程序AlphaFold基本解決了困擾科學家幾十年的一個問題——如何從氨基酸序列預測蛋白質的結構[6]。蛋白質的功能取決于其三維結構,因此AlphaFold成為研發藥物和疾病研究的強大工具。

這使得我們不禁自問:人工智能是否能為紐結不變量問題提供類似的解決方案?

人工智能與絞擰數

一些研究者已經開始使用人工智能來探討紐結的分類問題。最新的一些研究成果包括:2020年香港城市大學的Olafs Vandans團隊[8]和2023年帕多瓦大學的Anna Braghetto團隊的工作[9]。這些研究將不同的紐結視為一連串珠子,并通過給定的笛卡爾坐標、(后者中是)向量、珠子間的距離和角度等數據來訓練神經網絡,從而識別紐結的類型。這些研究取得了高精度的分類結果,但僅限于五個最簡單的紐結。

我們希望將此方法推廣到更復雜的拓撲結構,同時簡化神經網絡模型,并使用更小的訓練數據集。為此,我們從大自然中獲得靈感。在我們的身體中,DNA分子的紐結可以由所謂的“拓撲異構酶”(Topoisomerase)解開。盡管這些酶的體積只是DNA分子的千分之一,但它們可以切割并重新連接DNA鏈,從而有效地解開紐結。我們假設拓撲異構酶能夠感知某種局部幾何性質,使它們能夠找到DNA分子中最緊密纏繞的部分。我們嘗試使用密度、曲率等多種量來實現這一目標。最終,我們的結果又回到了起點——泰特和他的幾何絞擰數。

除了計算整個紐結的絞擰數外,我們還可以計算局部絞擰數,這個量可以刻畫某一鏈段的纏繞程度(見圖5c)。我們發現計算局部絞擰數是一種定位長環狀分子中紐結部分的有效方法[10]?;谶@一結果,我們決定將局部絞擰數的數據提供給AI,這樣它將有更大的勝算來識別復雜紐結。

這套理論成型后,我們開始構建神經網絡進行測試。首先,我們通過模擬五個最簡單的紐結的熱運動生成訓練數據集,提取數萬個構型(見圖6a)。隨后,我們訓練了兩個神經網絡:一個使用紐結的笛卡爾坐標,另一個使用局部絞擰數。在兩種情況下,我們都對AI進行了監督,使用我們訓練數據集的一個子集來告訴神經網絡每個紐結的類型。我們要求神經網絡對它們之前從未見過的簡單結進行分類,以檢驗我們的方法。

當AI在簡單的神經網絡上使用笛卡爾坐標進行訓練時,正確率只有80%,這與Vandans和Braghetto的成果類似。盡管這可能比我們大多數人在“識別紐結”游戲中的得分要高,但仍與我們的預期相差甚遠。然而,當神經網絡使用局部絞擰數進行訓練時,結果令人震驚:它的正確率超過了99.9%。

更具挑戰性的任務:局部絞擰數識別復雜紐結

盡管我對這一結果感到驚訝,但識別五個簡單紐結的任務實際上相對平凡,我們完全可以通過現有的不變量完成(甚至極為敏銳的“識別紐結”玩家也可以完成)。因此,我們決定給神經網絡一個更棘手的挑戰。這一次,我們精心挑選三個紐結:康威(Conway)結、木下-寺坂紐結(Kinoshita–Terasaka,以下簡稱KT結),以及最簡單的“平凡結”(unknot)。前兩個紐結都有11個交叉點,并且是彼此的變形,因為它們除了在一個區域“翻轉”外是完全相同的。它們共享許多的紐結不變量,同時也與平凡結共享一些不變量。我們發現,對于使用笛卡爾坐標訓練的神經網絡,康威結和KT結是無法區分的,但使用局部絞擰數訓練的神經網絡能夠以99.9%的準確率識別它們。

圖 6:紐結的完全不變量在光滑形變下保持不變。不同的拓撲結構具有不同的完全不變量。(a)中的兩幅圖像展示的是同一個結嗎?僅憑人類的直覺往往難以區分。事實上,這兩幅圖顯示的是兩種略微不同的結——康威結和KT結。由于很難區分這兩個結,它們可以用來測試神經網絡是否可以識別紐結。(b)展示了兩種結的不同構型——51結(也稱五葉結,上圖)和72結(下圖)。在達維德·米基耶萊托及其同事的神經網絡研究中,五葉結是第一個訓練數據集的一部分,而72結則包含在更大的數據集中。圖片來源:(a)參考文獻[5];(b) Davide Michieletto

我們的終極測試是將這種訓練應用于更大范圍的紐結。我們對250種結進行了模擬,這些結最多有10個交叉點(見圖6b)。當神經網絡使用笛卡爾坐標進行訓練時,正確率只有20%。相比之下,我們使用局部絞擰數進行訓練,AI可以在幾秒內以95%的準確率分類所有250個結,這遠超任何已知的算法或單一拓撲不變量[5]。

最后的驗證——瓦西里耶夫不變量

在對紐結理論一無所知的情況下,神經網絡通過自學,具備了一種長期跳脫于人類直覺之外的能力。實際上,人們仍在努力打開“黑箱”,理解神經網絡究竟探索到了什么。我們發現,為了區分五個最簡單的結,神經網絡會將結上的每一對點的絞擰數相乘。值得注意的是,這個量等價于一個已存在的不變量,稱為“二階瓦西里耶夫(Vassiliev)不變量”。瓦西里耶夫不變量是通過將局部絞擰數矩陣的二元組、三元組、四元組……直到n元組相乘來計算的。順便提一下,二階瓦西里耶夫不變量也是康威多項式的二次項系數,這是一種我們之前提到的代數不變量。一個仍未被驗證的猜想認為,能夠通過積分計算的瓦西里耶夫不變量完備集可能就是長期尋求的完全不變量。

我們很高興地發現,神經網絡能夠通過計算更高階的瓦西里耶夫不變量來適應更復雜的結。例如,為了唯一分類五個簡單結,神經網絡僅需計算二階瓦西里耶夫不變量。但在250個結的數據集中,它可能會計算三階或四階的瓦西里耶夫不變量。

幾何不變量和代數不變量是通過非常不同的數學方法計算的。AI能夠發現它們之間的聯系非常令人興奮,這也使我們更接近完全不變量。

紐結的確很重要

在短短三年內,AlphaFold生成了數百萬種蛋白質,其中大部分尚未被完全研究。2023年,由華沙大學的喬安娜·蘇爾科夫斯卡(Joanna Sulkowska)領導的一組研究人員預測,通過AlphaFold生成的蛋白質中有多達2%是紐結蛋白質,其中最復雜的結有六個交叉點[11]。2022年,約翰內斯·古滕貝格大學的彼得·維爾瑙(Peter Virnau)在AlphaFold2數據集中發現了一種具有七個交叉點的紐結蛋白質[12]。這種蛋白質從未在實驗中觀察到,因此我們不無理由相信可能還有更復雜的紐結蛋白質存在。

紐結不僅存在于生物學中。有研究發現,紐結的拓撲結構會影響冰和水凝膠的熱力學和材料屬性,這意味著未來我們可能會利用拓撲性質設計新材料。我們需?要更有效的方法來識別分子和材料中的紐結結構,希望我們的發現能為這一探索提供指導。

在2004年,加拿大的三位研究人員利用他們大學的計算集群將泰特最初編制的結表擴展至19個交叉點的交錯紐結,構造出超過六十億種獨特的紐結結構[7]。泰特花了25年創建他自己的紐結列表,他可能會驚訝于一百年后,一臺機器竟然能在短短幾天內將他的工作擴展超過五個數量級。紐結理論中目前最大的未解之謎仍然是尋找完全不變量。現在,既然有了AI的助力,下一步的進展可能讓我們感到驚訝。

譯者注

[1]蛋白質可憑借相互作用在特定環境下自我組裝,這個過程被稱為蛋白質折疊。蛋白質折疊問題是分子生物學領域尚未解決的一個重大課題。

[2]數學上,我們定義一個紐結為空間中的一個閉合曲線,并且該曲線在任何地方不會出現自相交。

[3]此處原文The above image is extracted from their table of knots up to seven crossings – “the first seven orders of knottiness”,表述有誤。從圖中不難看出,泰特等人列出的結表中包含了最多9個交叉點。圖2實際上列出了非平凡紐結的前七種情況,即交叉點的個數大于等于3且小于等于9。(注意,交叉點小于等于2的紐結可以光滑形變為平凡結。)

[4]本段原文有矛盾,“A recipe for such a topological invariant could be something like this……”,“it isn’t a complete invariant”。DT編碼只是用來構造拓撲不變量的一種方法,它本身并不是一個不變量。DT編碼提供了一個直接的符號化表示,使得紐結可以轉換成一串數字,便于分析和計算。人們可以進一步推導出亞歷山大多項式等重要的紐結不變量。另外,使用DT編碼,目前還無法構造出真正的完全不變量。

[5] 此處原文有誤,“One such invariant that I am fond of is the ‘writhe’”。和DT編碼一樣,絞擰數本身并不是拓撲不變量,但可以用來構造拓撲不變量。不同的是,絞擰數用于描述紐結二維投影圖的幾何特性(而非單一的代數性質,具體見下文)。例如絞擰數可以用來構造紐結的自交數,在區分鏡像紐結、描述紐結幾何特性和某些物理系統(如DNA鏈)的研究中有重要應用。同樣,使用絞擰數,目前還無法構造出真正的完全不變量。

參考文獻

[1]Dabrowski-Tumanski, Pawel, and Joanna I. Sulkowska. "To tie or not to tie? That is the question." Polymers 9.9 (2017): 454.

[2]Perko, Kenneth A. "On the classification of knots." Proceedings of the American Mathematical Society 45.2 (1974): 262-266.

[3]Dowker, Clifford H., and Morwen B. Thistlethwaite. "Classification of knot projections." Topology and its Applications 16.1 (1983): 19-31.

[4]Ippoliti, Emiliano. "On the heuristic power of mathematical representations." Synthese 200.5 (2022): 407.

[5]Sleiman, Joseph Lahoud, et al. "Geometric learning of knot topology." Soft Matter 20.1 (2024): 71-78.

[6]Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." nature 596.7873 (2021): 583-589.

[7]Vandans, Olafs, et al. "Identifying knot types of polymer conformations by machine learning." Physical Review E 101.2 (2020): 022502.

[8]Braghetto, Anna, et al. "Machine learning understands knotted polymers." Macromolecules 56.7 (2023): 2899-2909.

[9]Sleiman, Joseph L., et al. "Geometric Predictors of Knotted and Linked Arcs." ACS Polymers Au 2.5 (2022): 341-350.

[10]Perlinska, Agata P., et al. "AlphaFold predicts novel human proteins with knots." Protein Science 32.5 (2023): e4631.

[11]Brems, Maarten A., et al. "AlphaFold predicts the most complex protein knot and composite protein knots." Protein Science 31.8 (2022): e4380.

[12]Rankin, Flint, Schermann. "Enumerating the prime alternating knots, Part I." Journal of Knot Theory and Its Ramifications 13.01 (2004): 57-100.

本文基于知識共享許可協議(CC BY-NC)譯自Davide Michieletto, Spot the knot: using AI to untangle the topology of molecules.

特 別 提 示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。

來源: 返樸

內容資源由項目單位提供