2023 年 12 月,谷歌 DeepMind 在「Nature」上發(fā)布其在材料化學(xué)領(lǐng)域的深度學(xué)習(xí)模型 GNoME,宣稱發(fā)現(xiàn)了 220 萬種新的無機(jī)材料的晶體結(jié)構(gòu)。距離該突破性成就不到一周,微軟就宣布將要推出用于材料逆向設(shè)計(jì)的生成式 AI 模型 MatterGen,并向大家表示,未來完全可以根據(jù)所需要的性質(zhì)直接設(shè)計(jì)新材料的結(jié)構(gòu)。
如果說,谷歌的 GNoME 模型向我們展示了 AI 具備在龐大化學(xué)空間中快速發(fā)現(xiàn)新材料的潛力,那微軟的 MatterGen 則進(jìn)一步證明了生成式 AI 通過逆向設(shè)計(jì)精準(zhǔn)滿足特定需求的能力,二者展現(xiàn)了 AI 在材料化學(xué)領(lǐng)域的不同切入點(diǎn),也標(biāo)志著從大規(guī)模發(fā)現(xiàn)到「按需設(shè)計(jì)」的新技術(shù)躍遷。1 月 16 日,MatterGen 成果以「A generative model for inorganic materials design」為題,終于在 Nature 上正式見刊,更令人興奮的是,模型現(xiàn)已開源,HyperAI超神經(jīng)已在官網(wǎng)上線教程「MatterGen 無機(jī)材料設(shè)計(jì)模型 Demo」,一鍵即可部署運(yùn)行,歡迎大家測試模型性能。
東南大學(xué)王金蘭教授曾在「Inverse design with deep generative models: next step in materials discovery」文章中指出,在傳統(tǒng)的機(jī)器學(xué)習(xí)輔助材料設(shè)計(jì)研究中,大多是預(yù)測整個(gè)化學(xué)空間中候選材料的特性,并進(jìn)行大規(guī)模篩選,以尋找具有目標(biāo)性能的潛在材料,但逆向設(shè)計(jì)能夠直接沿著最優(yōu)路徑生成合格的化合物,她認(rèn)為,生成模型是逆向設(shè)計(jì)材料的一種有效策略,這與微軟的研究不謀而合。
MatterGen 基于擴(kuò)散模型,可以根據(jù)目標(biāo)空間群生成結(jié)構(gòu),比如在設(shè)計(jì)多屬性磁性材料時(shí),提出了既有高磁密度又具有 low supply-chain risk 化學(xué)成分的結(jié)構(gòu)。與此同時(shí),該模型還配備了多個(gè)可調(diào)適配模塊,可以根據(jù)化學(xué)性質(zhì)、對稱性和材料特性等約束條件進(jìn)行微調(diào),生成滿足特定磁性、電子或機(jī)械性能的材料,并通過 DFT 進(jìn)行驗(yàn)證。由此可見,基于某個(gè)場景來「定制化」新材料或許將在不遠(yuǎn)的未來成為現(xiàn)實(shí)。
除了上述提到的擴(kuò)散模型,如今主流的生成模型還包含生成對抗網(wǎng)絡(luò) (GANs)、變分自編碼器 (VAEs)、自回歸模型 (Autoregressive Models) 等,其核心原理都是通過學(xué)習(xí)數(shù)據(jù)分布來生成新的樣本。
今天這篇文章,HyperAI超神經(jīng)將為大家介紹生成模型逆向設(shè)計(jì)新材料的價(jià)值,并探討該技術(shù)在電池材料、高熵合金、超導(dǎo)材料等方面的具體進(jìn)展。
新材料研發(fā)與蛋白質(zhì)設(shè)計(jì)之間的「相似性」
在典型的材料開發(fā)問題中,我們希望找到一種具有特定性能的新材料,其實(shí)就是在尋找一種合適的晶體結(jié)構(gòu),使其符合目標(biāo)屬性。
過去,我們開發(fā)新材料的方式主要依賴試錯(cuò),這種「正向設(shè)計(jì)」的特點(diǎn)是從結(jié)構(gòu)到性質(zhì)的發(fā)現(xiàn)。以最常見的替換法為例,La-Ba-Cu-O 超導(dǎo)體是最早的銅基超導(dǎo)體,但是它只有 35 K 的超導(dǎo),低于液氮溫區(qū),研究人員從結(jié)構(gòu)出發(fā),將 La 替換為 Y 元素后發(fā)現(xiàn),Y-Ba-Cu-O 超導(dǎo)體的超導(dǎo)溫度高于液氮溫區(qū)。然而,這種方法的研發(fā)周期非常長,且存在高度偶然性。
隨著計(jì)算機(jī)技術(shù)和量子力學(xué)理論的進(jìn)步,基于密度泛函理論 (DFT) 的材料預(yù)測方法逐漸成熟,結(jié)合結(jié)構(gòu)搜索算法和高通量計(jì)算,可以在某些數(shù)據(jù)庫上,根據(jù)某些約束來高效地篩選潛在材料,然后再送到實(shí)驗(yàn)室合成、測試。然而,未知材料的化學(xué)空間極其龐大,不同元素的潛在組合甚至高達(dá)百萬級(jí)別以上,這導(dǎo)致大規(guī)模篩選的計(jì)算成本非常昂貴。
AI 驅(qū)動(dòng)的逆向設(shè)計(jì)提供了一種全新的思路,它跳出材料空間篩選的慣性思維,直接生成滿足目標(biāo)性能的材料結(jié)構(gòu),實(shí)現(xiàn)材料的高效設(shè)計(jì)和優(yōu)化。
事實(shí)上,基于 AI 驅(qū)動(dòng)的逆向設(shè)計(jì)已經(jīng)在生物醫(yī)學(xué)領(lǐng)域取得了突破性進(jìn)展,2024 年 10 月,諾貝爾化學(xué)獎(jiǎng)首次涉及 AI 領(lǐng)域,其中一半獎(jiǎng)項(xiàng)被授予美國華盛頓大學(xué)的 David Baker,以表彰他在蛋白質(zhì)設(shè)計(jì)上的突出貢獻(xiàn)。在他的多項(xiàng)研究中,我們都可以觀察到其反向使用深度學(xué)習(xí)為設(shè)計(jì)功能性新蛋白質(zhì)生成氨基酸序列的案例。
2024 諾貝爾化學(xué)獎(jiǎng)獲得者
新材料研發(fā)與蛋白質(zhì)設(shè)計(jì)有許多相似之處,比如材料的宏觀性質(zhì)由其微觀結(jié)構(gòu)決定,蛋白質(zhì)也是如此。在蛋白質(zhì)領(lǐng)域,氨基酸序列指導(dǎo)蛋白質(zhì)折疊成特定的二級(jí)、三級(jí)乃至四級(jí)結(jié)構(gòu),進(jìn)而決定其生物學(xué)功能。與此類似,材料科學(xué)依賴于原子、化學(xué)鍵及官能團(tuán)的選擇與排列,構(gòu)建分子或更復(fù)雜的材料結(jié)構(gòu),進(jìn)而決定其性能。
這種相似性使得蛋白質(zhì)設(shè)計(jì)中流行的 AI 方法能夠?yàn)椴牧峡茖W(xué)的研究提供借鑒,例如通過逆向設(shè)計(jì)優(yōu)化材料性能,探索新結(jié)構(gòu)或開發(fā)全新材料。
與此同時(shí),其他在生物醫(yī)藥領(lǐng)域中涌現(xiàn)的生成模型、視覺模型、語言模型以及其他先進(jìn)技術(shù),如強(qiáng)化學(xué)習(xí)、注意力機(jī)制、擴(kuò)散模型、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)、模型對齊機(jī)制等,在材料科學(xué)中也有著廣闊的應(yīng)用潛力。
值得一提的是,由于新材料不需要經(jīng)歷生物醫(yī)藥的漫長臨床試驗(yàn)周期,以及排除倫理安全等因素的影響,實(shí)際落地的可能性或許更大。
以微軟 MatterGen 為例,探討生成式 AI 逆向設(shè)計(jì)材料新范式
微軟的 MatterGen 模型主要是基于擴(kuò)散架構(gòu),先將原子類型、原子位置、周期性晶格逐步破壞為隨機(jī)結(jié)構(gòu),然后訓(xùn)練一個(gè)模型反向完成這一過程,讓模型學(xué)習(xí)如何從隨機(jī)噪聲逐步還原回原始材料結(jié)構(gòu)。論文的通訊作者謝天認(rèn)為,這與視頻生成的核心思想非常相似。
以 OpenAI 開發(fā)的文生視頻模型 Sora 為例,研究人員基于自編碼器 (Encoder),通過「視頻壓縮網(wǎng)絡(luò)」的技術(shù),將輸入的圖片或視頻壓縮成一個(gè)更低維度的數(shù)據(jù),并將這些壓縮后的視頻分解為「空間時(shí)間補(bǔ)丁」,進(jìn)一步轉(zhuǎn)換成一維的數(shù)據(jù)序列,方便 Transformer 處理。隨后,Transformer 會(huì)完成每個(gè)空間時(shí)間補(bǔ)丁的噪聲去除,再通過解碼器 (Decoder) 將處理后的張量數(shù)據(jù)還原成視頻。
Sora 工作流
而另一方面,在擴(kuò)散架構(gòu)的基礎(chǔ)上,研究人員讓模型學(xué)習(xí)已知穩(wěn)定材料數(shù)據(jù)的結(jié)構(gòu),一旦模型訓(xùn)練完成,就可以無條件地從隨機(jī)分布中采樣,并經(jīng)過反向過程,讓模型基于它對材料規(guī)律的理解,生成符合條件的新材料結(jié)構(gòu)。進(jìn)一步地,研究人員向網(wǎng)絡(luò)的每一層添加條件來微調(diào)基礎(chǔ)模型,這些條件可以是特定的化學(xué)性質(zhì)、對稱性,或者任何目標(biāo)屬性(磁性、密度等),經(jīng)過微調(diào)后,模型可以根據(jù)指定條件直接生成材料結(jié)構(gòu),并通過計(jì)算方法驗(yàn)證其穩(wěn)定性。
如下所示,在鍶-釩-氧化學(xué)系統(tǒng)的新材料生成案例中,MatterGen 生成的材料結(jié)構(gòu)看起來非常合理 (f-i),計(jì)算驗(yàn)證后發(fā)現(xiàn),這些材料具備穩(wěn)定性。
在目標(biāo)化學(xué)系統(tǒng)中生成材料
進(jìn)一步地,除了計(jì)算驗(yàn)證之外,團(tuán)隊(duì)還與中科院深圳先進(jìn)技術(shù)研究院合作,利用 MatterGen 成功合成了新型材料 TaGr2O6,實(shí)驗(yàn)測得其體積模量為 169 GPa,與設(shè)計(jì)值 200 GPa 相對誤差低于 20%。與此同時(shí),團(tuán)隊(duì)還希望從科學(xué)家那里獲得反饋,持續(xù)迭代和優(yōu)化模型,以期提高其實(shí)際應(yīng)用價(jià)值。
值得一提的是,由于大多數(shù)材料設(shè)計(jì)問題都涉及尋找具有極端特性的材料,比如室溫超導(dǎo)體、用于電池的超離子導(dǎo)體,傳統(tǒng)的基于搜索的方法很難實(shí)現(xiàn),但生成式模型以目標(biāo)屬性為指導(dǎo),可以為發(fā)現(xiàn)這些突破性材料提供機(jī)會(huì)。微軟正在利用這種模型進(jìn)行多種材料的探索,涵蓋電池設(shè)計(jì)、太陽能電池設(shè)計(jì)以及碳捕獲領(lǐng)域。
更多應(yīng)用:以高熵合金、超導(dǎo)材料開發(fā)為例
我們都知道,新材料不僅是驅(qū)動(dòng)諸如航空航天、新能源、電子信息及生物醫(yī)藥等高科技領(lǐng)域發(fā)展的基石,也是托舉新技術(shù)、新裝備、新工程的中堅(jiān)力量。然而,目前我國的材料工業(yè)仍以傳統(tǒng)材料為主,在新材料特別是高端新材料方面供給有限,與此同時(shí),由于關(guān)鍵技術(shù)的短缺,我們對進(jìn)口材料有一定的依賴性,受制于人的短板問題仍然突出。
現(xiàn)如今,隨著生成式 AI 的發(fā)展,材料科學(xué)正在迎來新的研究范式變革,如果我們能夠盡早入場這一新興領(lǐng)域,或?qū)榭朔贪逄峁┛赡埽型麑?shí)現(xiàn)「彎道超車」。接下來,筆者將以生成式 AI 在開發(fā)高熵合金、超導(dǎo)材料等應(yīng)用中的具體案例為例,探討這一技術(shù)如何助力新材料實(shí)現(xiàn)跨越式發(fā)展。
高熵合金
在諸如燃?xì)廨啓C(jī)、核反應(yīng)堆和航空推進(jìn)系統(tǒng)等工程應(yīng)用中,對具備優(yōu)異高溫機(jī)械性能的金屬合金需求十分旺盛。耐火高熵合金 (RHEAs) 通過添加不同的高熔點(diǎn)耐火元素,能夠在 1000°C 及以上溫度中保持高強(qiáng)度能力,表現(xiàn)出與高溫合金相當(dāng)?shù)母邷貜?qiáng)度,這引起了研究人員們的廣泛關(guān)注。
然而,與其他高溫合金相比,RHEAs 在特定方面(如室溫延展性等)的性能仍受到挑戰(zhàn),過去設(shè)計(jì) RHEAs 時(shí)大多依賴于研究人員的經(jīng)驗(yàn)和直覺,具備高度不確定性,與此同時(shí),RHEAs 可能的組成空間很大,包含數(shù)十億種候選成分,嚴(yán)重限制了我們對潛在合金的快速發(fā)現(xiàn)。
對此,賓夕法尼亞州立大學(xué)材料科學(xué)與工程系、計(jì)算與數(shù)據(jù)科學(xué)研究所助理教授 Wesley Reinhart 在 Journal of Materials Informatics 上發(fā)表論文「Generative deep learning as a tool for inverse design of high entropy refractory alloys」,并得出了一個(gè)初步結(jié)論——生成模型是一種很有前途的材料設(shè)計(jì)新方法,尤其是在高熵合金設(shè)計(jì)上,該成果被 JMI 評(píng)為年度優(yōu)秀論文。
在這篇論文中,研究人員提到,過去 10 年,以密度泛函理論 (DFT) 為例的計(jì)算方法已經(jīng)基本成熟,并積累了大量數(shù)據(jù),這為深度學(xué)習(xí)的應(yīng)用提供了基礎(chǔ),推動(dòng)了「前向模型」的發(fā)展,但遺憾的是,龐大的設(shè)計(jì)空間仍然是一個(gè)關(guān)鍵挑戰(zhàn),生成式建模的「逆向設(shè)計(jì)」為此提供了解決方案。
因此,研究人員利用條件生成對抗網(wǎng)絡(luò) (CGAN) 為生成器提供額外的條件向量,進(jìn)而控制其輸出。換句話說,條件向量可以提供與目標(biāo)屬性(如合金成分或性能指標(biāo))相關(guān)的信息,建立潛在空間和期望指標(biāo)之間的映射,生成器通過學(xué)習(xí)基于合金成分的合金性能數(shù)據(jù)概率分布,生成符合條件的樣本。值得一提的是,該模型已成功設(shè)計(jì)鋁合金,并通過計(jì)算方法進(jìn)行了驗(yàn)證。
使用條件 GAN 進(jìn)行材料逆向設(shè)計(jì)的生成式建模示意圖
值得一提的是,研究人員還提到,除了利用 CGAN,條件變分自編碼器 (CVAE) 也可用于新材料設(shè)計(jì),但因?yàn)橛?xùn)練過程固有的噪聲注入,以及對重建誤差的預(yù)定義度量要求,VAE 的效果不如 GAN。
超導(dǎo)材料
超導(dǎo)材料指的是在某一溫度下電阻為零的導(dǎo)體,其應(yīng)用十分廣泛,覆蓋輸電、電機(jī)、交通運(yùn)輸、航天、微電子、電子計(jì)算機(jī)、通信、核物理、新能源、生物工程、醫(yī)療以及軍事裝備等領(lǐng)域,自人類發(fā)現(xiàn)超導(dǎo)現(xiàn)象以來,該領(lǐng)域已經(jīng)產(chǎn)生了多個(gè)相關(guān)的諾貝爾獎(jiǎng)。
發(fā)現(xiàn)具有高臨界溫度 (Tc) 的新型超導(dǎo)體一直材料科學(xué)、凝聚態(tài)物理學(xué)領(lǐng)域的重要任務(wù),美國國家標(biāo)準(zhǔn)與技術(shù)研究所等聯(lián)合微軟研究人員,提出了一種新的擴(kuò)散模型,用于生成具有獨(dú)特結(jié)構(gòu)和化學(xué)組成的超導(dǎo)體。該研究以「Inverse Design of Next-generation Superconductors Using Data-driven Deep Generative Models」為題,發(fā)表在 The Journal of Physical Chemistry Letters 上。
在這項(xiàng)成果中,研究人員提到,想要將生成模型用在周期性材料中,面臨的主要挑戰(zhàn)是創(chuàng)建具有平移和旋轉(zhuǎn)不變性的表示形式,這個(gè)問題可以用晶體擴(kuò)散變分自編碼器 (CDVAE) 來解決。
使用 DFT、ALIGNN 和 CDVAE 生成模型的新型超導(dǎo)體的完整逆向設(shè)計(jì)工作流程
因此,如上圖所示,研究人員用 1,058 種超導(dǎo)材料的 DFT 數(shù)據(jù)訓(xùn)練 CDVAE 模型,讓其生成 3,000 種新的超導(dǎo)體候選材料。隨后,用預(yù)訓(xùn)練的深度學(xué)習(xí)模型 ALIGNN 預(yù)測這些候選結(jié)構(gòu)的超導(dǎo)性能,篩選后得到了 61 個(gè)候選材料。最后,研究人員對這些材料進(jìn)行 DFT 計(jì)算,以驗(yàn)證預(yù)測結(jié)果,并評(píng)估新材料的動(dòng)態(tài)和熱力學(xué)穩(wěn)定性。15 種具有潛力的候選超導(dǎo)材料結(jié)構(gòu)如下圖所示,研究發(fā)現(xiàn),這樣的方法使得下一代材料的逆向設(shè)計(jì)成為可能。
通過 CDVAE 生成并經(jīng) DFT 驗(yàn)證的頂級(jí)超導(dǎo)候選材料(最接近凸包)的頂視圖和側(cè)視圖
當(dāng)然,除了以上提到的案例,生成模型也在其他材料設(shè)計(jì)上得到了具體應(yīng)用。筆者特意整理了一些案例,可供大家參考。
*鋰電池設(shè)計(jì)
論文題目:Li-ion battery design through microstructural optimization using generative AI
*納米復(fù)合材料設(shè)計(jì)
論文題目:Generative AI for Tailored Functionalities in Nanocomposite Materials
*二維材料設(shè)計(jì)
論文題目:Computational Discovery of New 2D Materials Using Deep Learning Generative Models
*工程水泥基復(fù)合材料設(shè)計(jì)
論文題目:Generative AI for performance-based design of engineered cementitious composite
*機(jī)械和仿生材料設(shè)計(jì)
論文題目:Enhancing mechanical and bioinspired materials through generative AI approaches
寫在最后
目前,生成式 AI 在材料設(shè)計(jì)中的應(yīng)用很多仍停留在試驗(yàn)階段,為了真正實(shí)現(xiàn)技術(shù)落地,除了通過計(jì)算評(píng)估材料性能外,還需要依賴現(xiàn)實(shí)中的實(shí)驗(yàn)驗(yàn)證。在這方面,如果想要縮小計(jì)算篩選與試驗(yàn)合成新材料的差距,并以最小的人力快速發(fā)現(xiàn)材料,構(gòu)建自動(dòng)化實(shí)驗(yàn)室、實(shí)現(xiàn)閉環(huán)發(fā)現(xiàn)就顯得尤為重要了。
以加州大學(xué)伯克利分校的自動(dòng)化實(shí)驗(yàn)室 A-Lab 為例,其不僅能自動(dòng)執(zhí)行實(shí)驗(yàn)步驟,還能基于數(shù)據(jù)自主做出決策,在 17 天的連續(xù)運(yùn)行中,成功合成了 58 個(gè)目標(biāo)材料中的 41 個(gè),成功率高達(dá) 71%。由此可見,利用生成式 AI 設(shè)計(jì)材料,并通過自動(dòng)化實(shí)驗(yàn)室進(jìn)行高效合成與驗(yàn)證,正成為推動(dòng)材料科學(xué)快速發(fā)展的一種有效途徑。
來源: HyperAI超神經(jīng)