AI for Science 的新成果、新動態、新視角——
* 由 DeepMind 拆分的 AI 藥企首次達成制藥合作,價值 30 億美元
* 微軟協助科研人員發現 3,200 萬種新電池材料
* 網傳 TikTok 在美國各地招募計算生物學、量子化學、分子動力學和物理方面的人才
* 科大訊飛擬分拆醫療業務在港交所主板上市
* 鎂睿化學完成 2600 萬美元 A 輪融資
* 學術期刊 Science 使用 AI 工具檢測期刊中的圖片造假
詳見下文~
企業動態
由 DeepMind 拆分的 AI 藥企首次達成制藥合作
1 月 8 日,Alphabet 旗下 AI 制藥公司 Isomorphic Labs 宣布與禮來和諾華達成了兩項價值 30 億美元的藥物研發協議,此次合作涉及針對多種疾病相關蛋白和途徑的治療方法的研發。Isomorphic Labs 成立于 2021 年 11 月,由谷歌旗下 DeepMind 拆分而來,專注于 AI 醫藥領域。該公司運用了 DeepMind 在生物醫藥研究方面的成果,特別是其蛋白質結構預測模型 AlphaFold,來進行藥物研發。
微軟協助科研人員發現 3,200 萬種新電池材料
據介紹,太平洋西北國家實驗室利用微軟的 Azure Quantum Elements 服務,快速評估了 3,200 萬種潛在的新電池材料;美國能源部使用該服務 80 小時后發現了 18 個有前途的候選材料,而使用傳統的研究方法可能需要數十年的時間;英國化學制造商 Johnson Matthey 正在利用該服務加速氫燃料電池的研發工作。
網傳 TikTok 在美國各地招募計算生物學、量子化學、分子動力學和物理方面的人才
有報道稱,TikTok 的母公司字節跳動正在為其人工智能藥物設計和人工智能科學團隊,招募計算生物學、量子化學、分子動力學和物理方面的人才。據悉,字節跳動正在紐約州、加利福尼亞州和華盛頓州招聘至少17個相關職位。
科大訊飛擬分拆醫療業務在港交所主板上市
1 月 9 日晚間,科大訊飛發布公稱,公司擬將控股子公司訊飛醫療分拆至香港聯交所主板上市。訊飛醫療本次發行規模不超過發行后總股本的 15%。分拆完成后,科大訊飛仍將維持對訊飛醫療的控制權。
訊飛醫療成立于 2016 年 5 月,基于國際領先的醫學語義計算、文本理解、知識推理、數據挖掘等核心技術,打造人工智能醫療解決方案體系,針對基層醫療機構、醫院、患者和居民等醫療行業從業者的廣泛需要,實現從疾病預警、早篩、診斷、治療與療效評價、診后與慢病管理的醫療全流程覆蓋。
鎂睿化學完成 2600 萬美元 A 輪融資
上海鎂銳科技有限公司日前完成 2600 萬美元 A 輪融資,本輪融資由啟明創投與 LYFE Capital 共同領投,創新工場與鎂伽科技跟投。融資資金將用于進一步完善產品研發,開拓商業市場,支持國際化布局。
鎂睿化學成立于 2022 年 1 月,由鎂伽孵化并完成天使輪投資。公司由一支具有國際跨學科背景的團隊創立,致力于利用自動化、智能化平臺為新藥研發客戶提供新一代的化學合成 CRO 服務,大幅縮短新藥研發周期中化學合成環節的交付周期,并顯著降低化學合成相關成本,擺脫藥化合成高度依賴手工操作的現狀。
學術期刊 Science 使用 AI 工具檢測期刊中的圖片造假
Science 已經部署了 Proofig 平臺并進行了數月的試用,有明確的證據表明,在論文發表之前可以檢測到存在問題的數據,例如篡改圖像以誤導讀者。此外,Science 還將該檢測工具與文本抄襲檢測軟件一起使用,代替人工審查。
工具資源
華為、香港大學開源幾何數學模型 G-LLaVA
目前,多模態大語言模型仍無法準確解析幾何圖形中的基本要素及其關系。為了解決這一難題,華為諾亞方舟實驗室、香港大學、香港科技大學聯合開源了專業幾何數學模型 G-LLaVA。為了測試 G-LLaVA 的性能,研究人員在知名數學測試平臺 MathVista 上,與其他大模型進行了深度評估。結果顯示,G-LLaVA 的性能超過了 GPT-4-V、LLaVA1.5、MiniGPT-4 等模型。
開源地址:
https://github.com/pipilurj/G-LLaVA
論文地址:
https://arxiv.org/abs/2312.11370
上海 AI 實驗室開源醫療大模型群「浦醫 2.0」
近日,上海 AI 實驗室與上海交通大學醫學院附屬瑞金醫院等合作伙伴聯合發布醫療多模態基礎模型群「浦醫 2.0」 (OpenMEDLab2.0),實現了醫療大模型群「產、學、研、用、評」一站式開源,旨在為「跨領域、跨疾病、跨模態」的 AI 醫療應用提供能力支持。
開源地址:
github.com/OpenMEDLab
國內首個醫療專科推理數據集 RJUA-QA 開源
螞蟻集團與上海仁濟醫院泌尿科專家團隊聯合研發,基于醫生團隊臨床經驗,通過構造模擬病例數據的方式,推出了首個中文醫療專科問答推理數據集 RJUA-QA,數據集由訓練、驗證、測試三部分組成,包含 2,132 個 QA 問答對,Context 來自于中國泌尿外科和男科疾病診斷治療指南。病種覆蓋了 97.6% 以上的泌尿科就醫人群,能真實復刻診療場景。
數據集地址:
http://openkg.cn/dataset/rjua-qadatasets
paperai :醫學/科學文獻發現和審閱引擎
paperai 是一款由 AI 驅動的醫學/科學論文文獻發現和審閱引擎。該工具運行 query 篩選出符合特定標準的論文,并執行基于問答提取技術的 report 功能,從一組醫療/科學論文中找出關鍵問題的答案。paperai 已被用于分析 COVID-19 開放研究數據集 (CORD-19),并在 CORD-19 Kaggle 挑戰賽中獲得多個獎項。
工具地址:
https://paperpal.com/paperpal-for-researchers
DeepKE:浙江大學基于深度學習的開源中文知識圖譜抽取工具
DeepKE 是一個開源和可擴展的知識圖譜抽取工具,支持常規全監督、低資源少樣本和文檔級場景,覆蓋各種信息抽取任務包括命名實體識別、關系抽取和屬性抽取。通過一個統一的框架,DeepKE 允許開發人員和研究人員自定義數據集和模型,并根據他們的需求從非結構化文本中抽取信息。
工具地址:
http://openkg.cn/tool/deepke
ResGen:基于蛋白質口袋感知的 3D 分子生成模型
浙江大學與之江實驗室研究團隊提出了一種基于蛋白質口袋的 3D 分子生成模型——ResGen,用于設計給定目標內的有機分子。ResGen 具有更高的計算效率,大約比目前最優技術快 8 倍,在生成新的分子方面也有著比目前最優方法更高的成功率。
開源地址:
https://github.com/HaotianZhangAI4Science/ResGen
科研成果
生成式 AI,6 秒生成新化學反應
Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model
* 來源:Nature Computational Science
* 領域:化學科學,機器學習
* 作者:麻省理工學院團隊
研究人員開發出了一種基于機器學習的替代方法,能夠在幾秒鐘內發現化學反應的過渡態。新模型可以協助化學家探索和設計新的反應和催化劑,從而生成高附加值的有用產品,例如燃料化合物或藥物。此外,該模型還能夠模擬自然發生的化學反應。
閱讀原文:
https://www.nature.com/articles/s43588-023-00563-7
基于聯邦學習的退役電池快速分類模型
Collaborative and privacy-preserving retired battery sorting for profitable direct recycling via federated machine learning
* 來源:Nature Communications
* 領域:通訊科學,機器學習
* 作者:清華大學深圳國際研究生院張璇、周光敏團隊
研究團隊建立了基于聯邦學習的退役電池快速分類模型,無需歷史運行數據,僅用少量現場測試信息即可實現退役電池正極材料的精確分類。
閱讀原文:
https://doi.org/10.1038/s41467-023-43883-y
UniKP : 用于預測酶動力學參數的統一框架
UniKP : a unified framework for the prediction of enzyme kinetic parameters
* 來源:Nature Communications
* 領域:生物技術,語言模型
* 作者:中國科學院團隊
研究人員基于預訓練大語言模型和機器學習模型的酶動力學參數預測框架 (UniKP),該框架僅通過給定酶的氨基酸序列和底物的結構信息,就可以實現多種不同的酶動力學參數的預測。
閱讀原文:
https://www.nature.com/articles/s41467-023-44113-1
DeepProSite : 識別蛋白質結合位點
DeepProSite : structure-aware protein binding site prediction using ESMFold and pretrained language model
* 來源:Bioinformatics
* 領域:生物醫藥,語言模型
* 作者:上海交通大學和中山大學團隊
DeepProSite 利用蛋白質結構和序列信息來識別蛋白質結合位點。其從 ESMFold 生成蛋白質結構,并從預訓練的語言模型生成序列表示,并使用 Graph Transformer 并將結合位點預測制定為圖節點分類。
閱讀原文:
https://academic.oup.com/bioinformatics/article/39/12/btad718/7453375
活動預告
ALCF 培訓:超級計算機基礎知識,推動 AI for research
「Introduction to AI-Driven Science on Supercomputers」由 Argonne Leadership Computing Facility (ALCF) 主辦,是一系列免費在線活動,活動將分為講座和實踐兩部分。課程設置為:
* Week 1:超級計算機入門
* Week 2:神經網絡介紹
* Week 3:進一步探討神經網絡
* Week 4:大語言模型簡介
* Week 5:大語言模型的嵌入和標記化
* Week 6:AI的并行訓練方法
報名鏈接:
https://www.alcf.anl.gov/alcf-ai-science-training-series?ct=t(EVT-ALCFINTROTOAI_01092024)
以上就是「Science AI Weekly」本要分享的所有內容了~
如果你有關于 AI for Science 的最新研究成果、企業一手信息等,歡迎留言「爆料」。
來源: HyperAI超神經