人類文明早期的全部記憶,都藏匿在了刻痕和文字之中。銘文是最早的文字形式之一,為人們洞察古代文明的思想、語言和歷史提供了窗口。從皇帝的政令到奴隸的墓志銘,這些刻在石碑、青銅器上的文字,成為了判定年代、理解文化的直接證據。據估計,每年仍有 1,500 條新的拉丁銘文被發現,但碑銘學的研究卻面臨著文本殘缺、解讀障礙、學識局限等諸多困境。

2025 年 7 月 23 日,谷歌 DeepMind 的研究人員聯合諾丁漢大學、華威大學等高校在國際頂尖學術期刊 Nature 上發表了題為「Contextualizing ancient texts with generative neural networks」的研究論文。

該研究包含 3 大創新亮點:

* Aeneas 能夠同時接收銘文的文本轉錄和圖像信息。圖像通過淺層視覺神經網絡處理,與文本特征結合后,尤其助力地理歸因任務。

* 此前 AI 僅能修復長度已知的文本,而 Aeneas 突破修復限制,首次開創「任意長度修復」的能力。

* Aeneas 的核心能力是為目標銘文找到最相關的「平行文本」。這些平行文本不僅包含相似短語,還涵蓋文化背景、社會功能等深層關聯,遠超傳統字符串匹配的局限。

模型架構:多模態生成式神經網絡 Aeneas

**Aeneas 是一個多模態生成式神經網絡(multimodal generative neural network),**采用基于 Transformer 的解碼器來處理銘文的文本和圖像輸入,通過一個淺層視覺神經網絡處理從拉丁銘文數據集中檢索相似的銘文,并按照相關性排序。輸入文本由模型的核心部分——「軀干(torso)」處理。

專為拉丁銘文的語境化分析設計的 Aeneas,其架構包括輸入處理、核心模塊、任務頭及語境化機制組成。

**輸入處理:**輸入為銘文的字符序列和 224×224 的灰度圖像。其中,字符序列最長 768 字符,用「-」標記已知長度缺失、「#」標記未知長度缺失,以 < 為句首標記;

**核心模塊:**文本由基于 T5 Transformer 解碼器改進的 torso 處理,含 16 層,每層 8 個注意力頭,采用相對位置旋轉嵌入,圖像通過 ResNet-8 視覺網絡處理。隨后,torso 和視覺網絡的輸出被導向 heads 的專用神經網絡,利用文本處理字符恢復和年代測定任務,每個 heads 都經過定制,以處理 3 個關鍵的碑銘學任務。

**任務頭(task head):**輸出端有專門的任務頭,分別處理文本修復(含輔助頭應對未知長度修復,用束搜索生成假設)、地理歸因(結合文本與視覺特征,分類 62 個羅馬省份)、年代歸因(將日期映射為 160 個離散十年區間),所有任務均附顯著性圖;

**語境化機制:**通過整合 torso 與任務頭的中間表示生成歷史富集嵌入,基于余弦相似度檢索相關平行銘文,輔助歷史學家研究。

埃涅阿斯架構對文本轉錄的處理以 Aeneas 對短語「Senatus populusque Romanus」的處理過程為例:給定某一銘文的圖像及其文本轉錄(其中長度未知的受損部分用「#」標記)后,Aeneas 會采用 torso 對文本進行處理。 heads 負責字符恢復、年代判定和地理歸屬(地理歸屬任務還會整合視覺特征)。 torso 的中間表征會被融合為一個統一的、富含歷史信息的嵌入向量,以此從拉丁銘文數據集(LED)中檢索相似的銘文,并按相關性排序。

需要注意的是,**Aeneas 模型只有地理歸屬 heads 整合了來自視覺網絡的額外輸入,文本修復和年代歸屬任務不使用視覺模態。**恢復任務排除視覺輸入是為了防止意外的信息「泄露」,由于文本的部分內容被人工掩蓋,且其在圖像中的確切位置未知,模型可能會利用視覺線索來推斷和恢復隱藏的字符,從而損害任務的完整性。

數據集:可供機器操作的最大規模拉丁銘文數據集

用于訓練 Aeneas 模型的語料數據庫在研究中稱為拉丁銘文數據集 (LED),是迄今為止最大的、機器可操作的拉丁銘文數據集。 LED 數據集的綜合語料數據來自 3 個最全面的拉丁銘文數據庫:羅馬銘文數據庫(EDR)、海德堡銘文數據庫(EDH)和 Clauss-Slaby 數據庫,其中包含從公元前七世紀到公元八世紀的銘文,地理覆蓋范圍從西部的羅馬行省不列顛尼亞(今英國)和盧西塔尼亞(葡萄牙),到東部的埃及和美索不達米亞。為確保整個 LED 數據集的一致性,研究使用 Trismegistos 數據平臺中的標識符處理數據中存在的歧義,并應用了一套過濾規則來系統地處理人工注釋,實現文本可由機器操作處理。

為獲得標準化的元數據,**研究將與日期和歷史時期相關的所有元數據轉換為公元前 800 年至 公元 800 年范圍內的數字,**超出此范圍的銘文則被排除在外。為提升模型的學習和泛化能力,研究將數據集中的實質性文本內容按照標準,轉換為機器可操作的格式:

* 刪除或規范化歷史學家的碑文注釋,保留與原始銘文最接近的版本。

* 拉丁文縮寫未被解析,而由于歷時、雙向或變位原因而顯示替代拼寫的詞形被保留,以便模型學習其在碑文、地理或年代順序上的具體變化。

* 保留由編輯者恢復或無法最終恢復的缺失字符,當無法確定缺失字符確切數量時使用井號(#)作為占位符,同時折疊多余空格以確保輸出內容簡潔。

* 去除非拉丁字符,只留下拉丁字符、預定義標點符號和占位符。

*過濾重復銘文,超過 90% 內容相似度閾值的文本被視為重復。

在轉換格式后,研究根據唯一銘文標識符的最后一位數字,將 LED 劃分為訓練、驗證和測試集,從而確保圖像在各個子集之間的均勻分布。

研究在實施自動過濾流程后,通過對顏色直方圖應用閾值剔除主要由單一純色組成的圖像,利用拉普拉斯矩陣的方差來識別和丟棄模糊圖像,并將清理后的圖像轉換為灰度圖,進而從數據集中獲取了可用的銘文圖像。 LED 數據集共包含 176,861 個銘文,但其中大多數都存在部分損壞,僅有 5% 銘文能產出可用的相應圖像。

實驗結論/性能

研究人員從任務執行、 Onomastics 基線、語境化機制與研究效率 3 個層面對 Aeneas 模型的性能進行了評估。

* Onomastics 是研究人名、地名、族名、神名等專有名稱的起源、結構、演變和意義的學科。

任務執行指標

**該研究使用文本修復、地理歸屬和時間歸屬三方指標組成了評估框架。**其中,研究人員使用人為方法破壞任意長度文本并提交模型生成修復對象;在地理歸屬任務中則使用標準的 Top-1 和 Top-3 準確率指標來評估性能;對于時間歸因,則使用一個可解釋的指標來評估預測結果與真實數據之間的時間接近度。

實驗顯示,Aeneas 的架構提供了多模態功能,**能夠恢復長度未知的文本序列,**并且能夠適應任何古代語言和草紙、鑄幣等書面媒介,在古代文獻研究的語境化過程中捕捉銘文與歷史的聯系。

Onomastics baseline

**Aeneas 模型對 Onomastics 中派生的元數據的自動化評估成為其歸因預測能力的關鍵指標。**由于沒有預先編譯的羅馬專有名詞列表,**研究團隊從專有名詞存儲庫中手動刪除了 350 個不代表專有名詞的項目,**排除了由于用法歧義而較短或包含非拉丁字符的條目,從而得到一個包含約 38,000 個專有名詞的精選列表。

為了增強方法的穩健性,研究識別并篩選了數據集中最常用的單詞,使其僅包含完全由精選專有名詞列表中的條目組成,隨后計算其在訓練數據集中的平均時間和地理分布,以便 Aeneas 模型在分析新銘文時利用已處理的專有名詞數據來預測新銘文的日期和出處。

Aeneas 模型在該任務的評估方法能夠應用于全數據集,并實現了擴展性的提高。

語境化機制與研究效率

研究評估了 Aeneas 模型的語境化機制作為歷史研究基礎工具的有效性。 23 位來自多元化背景的銘文學家匿名參與了此次評估,根據 3 次銘文任務的執行體驗,測評了使用 Aeneas 語境化機制作為研究輔助工具的效率感受:

* Aeneas 模型能夠顯著縮短尋找相關信息的時間,使研究能夠專注于更深入的歷史解讀和構建研究問題。

* Aeneas 模型檢索到的信息準確,為了解碑文的類型和背景提供了寶貴的見解,有助于研究任務推進。

* Aeneas 能夠通過識別重要但先前未被注意到的相關信息和被忽視的文本特征來拓寬搜索范圍,同時對結果進行優化。

有專家對「真實性」存疑

「Aeneas 是人工智能在歷史學科的開端」,人工智能領域的技術專家 David Galbraith 給出了這樣的高度評價。 Aeneas 的突破,不僅是技術層面的進步,更標志著人文學科與 AI 的深度融合。對歷史學家而言,它不是代替學者,更多的是成為一個「超級助手」,減少機械勞動,拓展研究視野。同時在 AI 領域,它證明了多模態、語境化模型在處理復雜人文數據時的潛力,為未來發展其它古代語言的研究提供了范本。

Aeneas 仍有局限。面對 Aeneas 的突破性進展進展,另一位人工智能專家產生憂思,「過度依賴 AI 來填補空白,真實性就會存疑」。

誠然,AI 是工具,而非真實的替代者。訓練數據中僅 5% 的銘文配有圖像,部分地區(如西西里)和時期(如公元前 600 年以前)的銘文數量不足,導致預測精度下降。這些都在警醒我們當前 AI 技術的不成熟性尚存,應當理性抉擇它在科研、生活中的占比。

來源: HyperAI超神經