「明年我們去法國接甲骨文回家」,2024 年 12 月下旬,安陽師范學院甲骨文信息處理教育部重點實驗室的研究人員遠赴法國,與法國國家圖書館等 4 家甲骨文收藏機構簽訂合作協議,將以數字化形態將已經遠離故土許久的甲骨文文化遺產「接回家」。
2024 年 8 月 5 日,「全球甲骨數字回歸計劃」正式啟程,實驗室主任劉永革帶領團隊成員張展、李邦、郭安、龔慕凡飛往韓國,于 8 月 13 日帶回了 7 片甲骨實物的高保真數據,這也是我國流失海外的甲骨文化遺產首次以數字化形態重歸故里。
2024 年 6 月,劉永革主任聯合華中科技大學、阿德萊德大學、華南理工大學的研究人員,利用基于圖像的生成模型,訓練出了一種針對甲骨文破譯優化的條件擴散模型 Oracle Bone Script Decipher (OBSD),研究成果不僅入選了 ACL 2024,還成功獲評最佳論文。
此前,實驗室還打造了集甲骨文文獻庫、著錄庫、字庫三庫合一的甲骨文大數據平臺「殷契文淵」,并向全世界開放,這是世界上現有資料最齊全、最規范、最權威的甲骨文數據平臺,它的開放標志著甲骨學研究進入智能化時代。
誠然,近年來,AI 在古文研究領域逐漸得到了更加深度的應用,在加速研究人員工作效率的同時,甚至成為了揭開歷史神秘面紗的「圣手」。
古文釋讀,一字千金
2016 年,中國文字博物館曾發布懸賞公告:破譯未釋讀的甲骨文并經專家委員會鑒定通過的研究成果,單字獎勵 10 萬元??芍^「一字千金」。雖然賞金豐厚,但在甲骨文近 4 千個不重復的單字里,只有約 1,160 個被解讀,仍有超 2 千個仍待探索,古文字考釋的工作任重道遠。
在傳統歷史研究中,古文字考釋是一整套復雜的流程。
首先需要進行「校重」,即整理和校對重片。從甲骨文首次被發現至今,出土的甲骨實物約有 15 萬片。這些甲骨在不同的人手中流轉,留下了多張拓本圖像,這些對同一片甲骨的不同拓本被稱為「重片」,是解讀甲骨文的重要材料。甲骨重片數量繁多,質量參差不齊,主要依靠研究人員肉眼校對,高度依賴經驗,費時費力。
其次才是正式「釋讀」,第一步是對古文字的字形進行詳盡的觀察和分析,識別其筆畫和結構。而后基于字形特征,結合古代文化、習俗和宗教等方面的背景知識,推測每個字的原始意義。在釋讀過程中,將古文字置于其出現的特定歷史語境、音韻體系中進行考察,分析其在當時的意義和用法,同時與現代漢語或其他古代語言中的同源詞進行比較,以確定其語義演變和詞源關系。這需要學者們有豐富的專業知識儲備,像偵探一般抽絲剝繭、觸類旁通。
所幸,一字千金的路途上,有 AI 的協助。
校重工作需要對比和處理海量數據,并從中挖掘有用信息,這正是 AI 的專長。2022 年微軟亞洲研究院 (MRSA) 的工作中,研究員武智融訓練了一套自監督學習的深度神經網絡算法——甲骨文校重助手 Diviner,將 18 萬幅數字化拓本輸入 Diviner 之后,它不僅提供了一批更全、更清晰的甲骨圖像,更有不少堪稱驚喜的新發現:
重而不同的新圖像
如下圖所示左側是時間較早,沒有拓全的甲骨拓本。右側是時間較晚的拓本,甲骨殘破只余下一部分,盡管拓全了但很不完整。通過將兩個拓本重疊,獲得了一張更加完整的甲骨圖像,特別是右上部分的一段甲骨文字的完整展現,為甲骨文研究直接提供了一條新材料。
兩個拓本疊加獲得了一張完整的甲骨圖像
有里有面的新圖像
有些甲骨正反兩面皆有文字,但有時只有一面留下了拓本。比如馬保春先生曾發現這兩版反面拓本可以綴合在一起。但其中一片的正面圖像一直沒有找到。Diviner 校重發現了下面一片甲骨的正反完整拓本,正面綴合復原的圖像也終于得以呈現。
基于 Diviner 校重得到了正面綴合復原的圖像
從重片到綴合
左側圖像是過去由張宇衛先生綴合在一起的兩片甲骨。通過 Diviner 的校重發現,下部拓本原來還有一片更完整的重片。如此,兩片甲骨的綴合就擴展成了三片甲骨的綴合。
甲骨綴合
從模糊到清晰
由于有些甲骨拓本質量不高,上面文字難以辨認,給甲骨學家帶來很多困擾。如下圖所示,模糊拓本上的文字讓人難以辨認,直到發現了清晰的重片,才把過去的很多疑惑解決了。
甲骨文的釋讀工作目前主要依賴于專家的手工操作,但 AI 的應用有望簡化這一過程,使之更加高效。今年 5 月 27 日,騰訊「殷契文淵」甲骨文 AI 協同平臺正式上線。
殷契文淵旨在提供成熟、規范的系統及技術工具,助力提高甲骨文研究效率。研究人員可使用交互式甲骨全信息查看器,以排比或堆疊的方式查看和比較不同數字化版本的甲骨文,包括歷史照片、高分辨率 3D 模型、數字摹本圖和增強的數字拓片圖。
升級版殷契文淵平臺引入了多種工具,可直接解決甲骨文研究中遇到的主要難題:可視化和文字識別。由于甲骨脆弱易碎,是名副其實的無價之寶,研究人員通常無法直接接觸甲骨。此外,由于甲骨碎片分散在中國和世界各地,使得研究難度進一步增大。
長期以來,研究人員必須對比每張圖片,有時甚至要借助手繪筆記來尋找重復出現的字形,這一過程耗時耗力,而如今 AI 輔助功能可以大大提高破譯甲骨文的效率和準確性。此外運用微痕增強技術,研究人員得以看清甲骨上的較淺刻痕,方便他們詳細分析甲骨文筆畫和甲骨背面輪廓分明的凹槽。
運用微痕增強技術觀察甲骨上的較淺刻痕
為了便于搜索,每個甲骨文單字均已編入索引,無論是研究人員還是愛好者,都能夠快速找到相關的學術論文,開展進一步研究,這大大縮短了甲骨文的處理時間。
AI 助力,點石成金
如果說從刻痕辨識文字的工作是一字千金,那么解讀一本「無字天書」,似乎是點石成金的童話。
在 Nat Friedman、Daniel Gross 和 Brent Seales 發起的 Vesuvius Challenge 里 ,3 位年輕人攜手 AI,揭開了上古卷軸(赫庫蘭尼姆卷軸)的神秘面紗。這組卷軸在公元 79 年被一場火山爆發掩埋碳化,1752 年才被挖掘出土。只要稍有不慎,脆弱的卷軸就會分分鐘變成殘片,根本無法通過物理方式展開。
通過給卷軸拍攝 CT 影像并借助機器學習技術分割識別,他們成為了從未打開卷軸,卻「看」到了上面文字的人。
前 SpaceX 實習生 Luke Farritor 訓練了一個關于裂紋模式的機器學習模型,并成功發現了一個完整的單詞 ΠΟΡΦΥΡΑ?,意思是「紫色」。隨后,他與 Youssef 和 Julian 組成三人團隊,分析出超 2 千個字符,內容被認為與伊壁鳩魯哲學有關。在這個卷軸的兩個連續片段中,作者提及了商品(如食物)的可獲得性是否以及如何影響它們能帶來的快樂。
* 伊壁鳩魯是古希臘哲學家,在自然科學領域提出了原子論,對后世的倫理學和心理學發展都產生了重要影響
這一成就點燃了通常進展緩慢的古代研究世界,建立了考古研究的新范式。學者們認為,這將使古希臘和古羅馬詩歌、戲劇和哲學作品的發現量成倍增加,其中一些文本可能會完全改寫古代世界關鍵時期的歷史。
過去 & 未來,科技淘金
不只是甲骨文解讀,AI 在歷史學的其他方面,同樣有著極廣闊的應用前景。比如預測未發現地點的位置,進行數字修復和重建,確定物品的年代和由來。
研究人員將機器學習算法與 LiDAR(激光探測與測量)技術結合,揭示了中美洲森林覆蓋下的先前隱藏的瑪雅結構和定居點。在危地馬拉的 Petén 地區,AI 識別出了 6 萬多個以前未知的瑪雅結構,包括金字塔、宮殿和堤道。
此外,相信大家對于數字文博也不陌生,復旦大學科技考古研究院文少卿團隊用專門適用于古 DNA 的捕獲探針,從北周武帝肢骨樣本上獲取了約 100 萬個可用的基因位點,還原了北周武帝頭發、皮膚、瞳孔等關鍵特征。復原出北周武帝宇文邕的頭像。
技術和歷史探索的融合標志著歷史學的一個新時代,在這個時代中,過去和未來匯聚在一起,照亮了人類的故事。未來,隨著 AI 等新興技術在這一領域的更加深刻應用,我們或許能夠一覽更加神秘、美妙的歷史故事。
來源: HyperAI超神經