文章目录医学数据集大全机器学习方向的开源数据资源库医学数据集大全机器学习方向的开源数据资源库做医学影像方向的机器学习找数据集是个麻烦事。数据散落在各个机构的网站上格式不统一获取方式也各不相同。这个 GitHub 项目把医学相关的数据集做了一次系统整理目前收获了 6000 多个 Star。项目作者是 beamandrew收录的内容覆盖了医学影像、电子病历、生物医学文献、临床竞赛等多个方向。下面按类别做个梳理。医学影像数据这部分是项目的核心内容收录的数据集数量多覆盖的病种也比较全。心脏影像方面有来自斯坦福的 EchoNet-Dynamic提供心脏运动视频数据。OASIS 项目提供大脑 MRI 数据包含横截面和纵向两组数据集横截面数据有 416 个受试者纵向数据有 150 个受试者部分受试者有阿尔茨海默症诊断。乳腺影像方面DDSM 数据库包含约 2500 例乳腺 X 光检查数据附带像素级别的标注信息。INbreast 数据库有 115 个病例包含肿块、钙化、不对称等多种病变类型。肺部影像方面LIDC 数据库提供肺部 CT 扫描数据用于肺结节检测算法的开发和评估。TCIA 收录了多种癌症类型的影像数据集按病例组织支持 DOI 引用。皮肤病变方面ISIC 存档包含 23000 张已分类的皮肤病变图像有良性和恶性两类。脑部影像方面ABIDE 提供 1112 个功能 MRI 数据集包括自闭症患者和对照组。ADNI 是阿尔茨海默症的 MRI 数据库同时附带临床和基因组数据。SynthStrip 数据集包含超过 600 个 MRI、CT 和 PET 扫描的头部图像和脑掩膜标注。眼科方面DRIVE 数据库用于视网膜血管分割研究包含 40 张视网膜照片。竞赛和挑战数据项目收录了多个医学影像竞赛的数据集。Kaggle 上的糖尿病视网膜病变检测数据集提供按严重程度标注的高分辨率视网膜图像。BraTS 脑肿瘤分割挑战赛从 2012 年开始每年举办持续扩展数据集。KiTS19 肾脏和肾肿瘤分割挑战赛提供 300 例增强 CT 扫描数据。MURA 骨科 X 光竞赛来自斯坦福任务是判断 X 光检查是否正常。Grand Challenge 平台汇集了 90 多个生物医学影像挑战赛提供标准化的评估基准。电子病历数据MIMIC-III 是一个公开的重症监护数据库包含 38597 名患者和 53423 次 ICU 入院记录需要注册获取。临床概念嵌入项目从 6000 万患者数据中学习了 108477 个医学概念的向量表示。国家级医疗数据CDC 提供涵盖疫苗接种、健康统计、伤害与暴力等多个领域的数据。Medicare 数据来自 CMS覆盖医院、护理机构、透析机构等。生物医学文献PubMed 200k RCT 收录了随机对照试验的摘要提供句子级别的标注。PubMedQA 是一个生物医学问答数据集任务是用是/否/可能来回答 PubMed 标题中的问题。医学语音数据TORGO 数据库包含脑瘫和肌萎缩侧索硬化患者的语音数据附带声学和发音特征测量。UCI 数据集项目还整理了 UCI 机器学习库中的医学相关数据集包括肝病、甲状腺疾病、乳腺癌、心脏病、帕金森病等。总的来说这个项目是一份比较完整的医学数据集索引。每个数据集都标注了论文链接和获取方式部分需要注册。如果你在做医学方向的机器学习研究这个仓库值得收藏省去了到处找数据的时间。论文链接和获取方式部分需要注册。如果你在做医学方向的机器学习研究这个仓库值得收藏省去了到处找数据的时间。
医学数据集大全:机器学习方向的开源数据资源库
发布时间:2026/6/27 5:50:29
文章目录医学数据集大全机器学习方向的开源数据资源库医学数据集大全机器学习方向的开源数据资源库做医学影像方向的机器学习找数据集是个麻烦事。数据散落在各个机构的网站上格式不统一获取方式也各不相同。这个 GitHub 项目把医学相关的数据集做了一次系统整理目前收获了 6000 多个 Star。项目作者是 beamandrew收录的内容覆盖了医学影像、电子病历、生物医学文献、临床竞赛等多个方向。下面按类别做个梳理。医学影像数据这部分是项目的核心内容收录的数据集数量多覆盖的病种也比较全。心脏影像方面有来自斯坦福的 EchoNet-Dynamic提供心脏运动视频数据。OASIS 项目提供大脑 MRI 数据包含横截面和纵向两组数据集横截面数据有 416 个受试者纵向数据有 150 个受试者部分受试者有阿尔茨海默症诊断。乳腺影像方面DDSM 数据库包含约 2500 例乳腺 X 光检查数据附带像素级别的标注信息。INbreast 数据库有 115 个病例包含肿块、钙化、不对称等多种病变类型。肺部影像方面LIDC 数据库提供肺部 CT 扫描数据用于肺结节检测算法的开发和评估。TCIA 收录了多种癌症类型的影像数据集按病例组织支持 DOI 引用。皮肤病变方面ISIC 存档包含 23000 张已分类的皮肤病变图像有良性和恶性两类。脑部影像方面ABIDE 提供 1112 个功能 MRI 数据集包括自闭症患者和对照组。ADNI 是阿尔茨海默症的 MRI 数据库同时附带临床和基因组数据。SynthStrip 数据集包含超过 600 个 MRI、CT 和 PET 扫描的头部图像和脑掩膜标注。眼科方面DRIVE 数据库用于视网膜血管分割研究包含 40 张视网膜照片。竞赛和挑战数据项目收录了多个医学影像竞赛的数据集。Kaggle 上的糖尿病视网膜病变检测数据集提供按严重程度标注的高分辨率视网膜图像。BraTS 脑肿瘤分割挑战赛从 2012 年开始每年举办持续扩展数据集。KiTS19 肾脏和肾肿瘤分割挑战赛提供 300 例增强 CT 扫描数据。MURA 骨科 X 光竞赛来自斯坦福任务是判断 X 光检查是否正常。Grand Challenge 平台汇集了 90 多个生物医学影像挑战赛提供标准化的评估基准。电子病历数据MIMIC-III 是一个公开的重症监护数据库包含 38597 名患者和 53423 次 ICU 入院记录需要注册获取。临床概念嵌入项目从 6000 万患者数据中学习了 108477 个医学概念的向量表示。国家级医疗数据CDC 提供涵盖疫苗接种、健康统计、伤害与暴力等多个领域的数据。Medicare 数据来自 CMS覆盖医院、护理机构、透析机构等。生物医学文献PubMed 200k RCT 收录了随机对照试验的摘要提供句子级别的标注。PubMedQA 是一个生物医学问答数据集任务是用是/否/可能来回答 PubMed 标题中的问题。医学语音数据TORGO 数据库包含脑瘫和肌萎缩侧索硬化患者的语音数据附带声学和发音特征测量。UCI 数据集项目还整理了 UCI 机器学习库中的医学相关数据集包括肝病、甲状腺疾病、乳腺癌、心脏病、帕金森病等。总的来说这个项目是一份比较完整的医学数据集索引。每个数据集都标注了论文链接和获取方式部分需要注册。如果你在做医学方向的机器学习研究这个仓库值得收藏省去了到处找数据的时间。论文链接和获取方式部分需要注册。如果你在做医学方向的机器学习研究这个仓库值得收藏省去了到处找数据的时间。