醫療人工智能的快速發展離不開高質量數據集的支持。從疾病診斷到藥物研發,再到個性化醫療,數據集在推動機器視覺、大模型等應用于醫學領域中發揮著不可或缺的作用。
醫學數據集的形式多樣,涵蓋了不同維度和領域的數據資源。例如,在疾病診斷領域,像 RJUA-QA 這樣的問答數據集推動了復雜醫學知識的自動化應用;而在中醫藥領域,神農中醫藥數據集整合了傳統中醫藥文獻、臨床案例和藥方數據。
針對于此,本文整理了醫學領域的 10 個數據集,涵蓋神農中醫藥、中醫藥古籍、醫學推理、醫學問答……旨在幫助研究人員快速了解這些數據資源的分布與特點,并為其在具體研究問題中的應用提供啟發。
**中文醫學數據集匯總
1、首個中文醫療??茊柎鹜评頂祿?*
預估大小:2.34 MB
該數據集是一個創新的醫學泌尿外科專業問答推理數據集,由螞蟻集團醫學 LLM(大語言模型)團隊與上海交通大學醫學院附屬仁濟醫院泌尿外科專家團隊合作創建。其以 Q-context-A(問題-上下文-答案)格式呈現,其中的病例數據由專業醫生根據臨床經驗編寫,不涉及患者和醫生的任何個人隱私。
2、中文醫療問答數據集
預估大小:279.64 MB
該數據集為中文醫療問答數據集,包含 6 個不同醫療科室文件夾,分別為:男科 94,596 個問答對、內科 220,606 個問答對、婦產科 183,751 個問答對、腫瘤科 75,553 個問答對、兒科 101,602 個問答對、外科 115,991 個問答對,總計 792,099 條數據。每個文件夾下有一個 csv 文件。
3、醫學對話數據集
預估大小:118.35 MB
這是一個為運行醫學聊天機器人而設計的實驗數據集,它包含 256,916 條患者與醫生之間的對話。
4、神農中醫藥數據集
預估大小:28.98 MB
該數據集是專門為中醫藥領域設計的大規模語言模型訓練和評估的數據集。包含超 11 萬個的指令數據,這些數據通過以實體為中心的自指令方法生成,圍繞中醫藥領域的核心實體和不同意圖場景,不僅能夠提升模型在中醫藥相關問題的回答能力,還能輔助中醫診斷,提供個性化的醫療建議。
5、中醫藥古籍數據集
預估大小:80.49 MB
該數據集包含了約 700 項中醫藥古籍文本,涵蓋了從先秦至清末民國的歷代醫藥典籍。這些文獻不僅包括了醫學理論、方劑學、藥物學等內容,還包含了豐富的臨床案例和醫學百科知識。
6、中醫診斷數據集
預估大小:341.69 MB
該數據集是一個專注于中醫領域的高質量數據集,包含約 1GB 的中醫各個領域臨床案例、名家典籍、醫學百科、名詞解釋等優質內容。數據集主要由非網絡來源的內部數據構成,99% 為簡體中文內容,質量優異,信息密度可觀,適用于預訓練或繼續預訓練用途。
7、中醫對話數據集
預估大小:737.32 MB
這個中文醫療數據集是一個全面的資源,用于開發和訓練能夠在醫療領域提供專業對話和建議的語言模型。它結合了多種類型的數據,包括百科知識、教材文本、實際醫患對話以及評價數據,旨在提升模型的準確性和實用性。
8、醫學推理數據集
該數據集由香港中文大學和深圳市大數據研究院于 2024 年發布,專為微調 HuatuoGPT-o1 這一醫學大語言模型而設計,旨在提升其在復雜醫學推理任務中的表現。
9、多語言醫學能力測試基準數據集
預估大小:20.69 MB
該數據集是一個全面多語言醫學能力測試基準數據集,由上海交通大學人工智能學院智慧醫療團隊于 2024 年開發,旨在評估醫學領域多語言模型的發展,涵蓋了 6 種語言和 21 種醫學子領域。
10、MMedC 大規模多語言醫療語料庫
預估大小:31.05 GB
該數據集是一個由上海交通大學人工智能學院智慧醫療團隊于 2024 年構建的多語言醫療語料庫,它包含了約 255 億個 tokens,涵蓋了 6 種主要語言:英語、中文、日語、法語、俄語和西班牙語。
以上就是 HyperAI超神經為大家匯總的中文醫學數據集,如果你有想要收錄 hyper.ai 官方網站的資源,也歡迎留言或投稿告訴我們哦!
關于 HyperAI超神經 (hyper.ai)
HyperAI超神經 (hyper.ai) 是國內領先的人工智能及高性能計算社區,致力于成為國內數據科學領域的基礎設施,為國內開發者提供豐富、優質的公共資源,截至目前已經:
* 為 1300+ 公開數據集提供國內加速下載節點
* 收錄 400+ 經典及流行在線教程
* 解讀 200+ AI4Science 論文案例
* 支持 500+ 相關詞條查詢
* 托管國內首個完整的 Apache TVM 中文文檔
來源: HyperAI超神經