如何快速上手 MedMNIST:医学图像分类的终极开源数据集指南 🚀
MedMNIST 是一个开源项目,旨在为医学图像分类提供标准化数据集。通过 pip install medmnist 即可获取 18 个 MNIST 风格的 2D 和 3D 生物医学图像数据集,无需专业背景知识即可轻松上手,是医学图像分析、计算机视觉和机器学习领域的理想研究与教育资源。
📊 为什么选择 MedMNIST?三大核心优势解析
1️⃣ 多样化数据集覆盖,满足不同研究需求
MedMNIST 包含 12 个 2D 数据集和 6 个 3D 数据集,覆盖多种生物医学图像模态,支持二分类、多分类、序数回归和多标签等任务类型。数据集规模从 100 到 100,000 不等,总计约 708K 张 2D 图像和 10K 个 3D 图像,为不同场景下的算法测试提供充足数据。
2️⃣ 标准化预处理,开箱即用超简单
所有图像均预处理为统一尺寸,提供 MNIST 风格的 28x28 小尺寸和 64x64、128x128、224x224 等大尺寸选项(3D 数据集对应 28x28x28 和 64x64x64),并附带分类标签。用户无需专业背景知识,直接加载即可使用,极大降低医学图像研究门槛。
3️⃣ 灵活兼容,支持多框架与工具
无论你使用 PyTorch 还是其他机器学习框架,甚至无需 Python 环境,都能轻松使用 MedMNIST。项目提供 examples/getting_started.ipynb 和 examples/getting_started_without_PyTorch.ipynb 两种示例教程,满足不同用户需求。
图:MedMNISTv2 数据集概览,展示了不同模态的医学图像样本,涵盖从 2D 到 3D 的多样化数据类型。
🚀 三步快速安装与使用 MedMNIST
一键安装:最简单的开始方式
通过 PyPI 安装 MedMNIST 官方 Python 包,一行命令即可完成:
pip install medmnist
如需体验最新功能,可从源码安装:
pip install --upgrade git+https://gitcode.com/gh_mirrors/me/MedMNIST.git
验证安装:检查版本号
安装完成后,通过以下代码确认版本:
import medmnist
print(medmnist.__version__) # 应输出最新版本号,如 v3.0.2
基础使用:加载数据集示例
以 28x28 尺寸的 PathMNIST 数据集为例,使用 PyTorch 加载训练集:
from medmnist import PathMNIST
train_dataset = PathMNIST(split="train", download=True)
如需使用大尺寸版本(如 224x224),只需指定 size 参数:
from medmnist import ChestMNIST
test_dataset = ChestMNIST(split="test", download=True, size=224)
🌟 MedMNIST+ 新特性:更大尺寸,更强能力
2024 年 1 月发布的 MedMNIST+ 带来了更大尺寸的图像选项,包括 64x64、128x128 和 224x224(2D)以及 64x64x64(3D),作为原有 28 尺寸的补充,成为医学基础模型的标准化基准。
如何使用 MedMNIST+ 大尺寸数据集?
只需在加载数据集时指定 size 参数:
# 加载 64x64 尺寸的 2D 数据集
dataset_64 = ChestMNIST(split="train", size=64, download=True)
# 加载 64x64x64 尺寸的 3D 数据集
dataset_3d_64 = NoduleMNIST3D(split="val", size=64, download=True)
🛠️ 核心功能模块与使用指南
数据集模块:medmnist/dataset.py
提供 PyTorch 数据集和数据加载器实现,支持自动下载、数据分割和尺寸选择。核心方法包括:
__getitem__(self, index):获取指定索引的图像和标签save(self, folder, postfix="png"):将数据集保存为图像文件montage(self, length=20):生成数据集样本的蒙太奇图像
评估器模块:medmnist/evaluator.py
提供标准化评估函数,支持 AUC、ACC 等多种指标计算。关键功能:
evaluate(self, y_score):评估模型预测结果getAUC(y_true, y_score, task):计算 AUC 指标getACC(y_true, y_score, task):计算准确率指标
命令行工具:轻松管理数据集
通过命令行工具快速操作数据集:
- 列出所有可用数据集:
python -m medmnist available - 下载指定尺寸数据集:
python -m medmnist download --size=224 - 保存数据集为图像文件:
python -m medmnist save --flag=chestmnist --folder=./data --size=128
📈 社区贡献与最新动态
MedMNIST-C:评估模型鲁棒性的新基准
社区成员开发了 MedMNIST-C,这是 MedMNIST 数据集的损坏版本,包含针对不同模态的图像损坏和增强 API,灵感来源于 ImageNet-C 基准,旨在评估和增强模型的鲁棒性。
MATLAB API 支持
现已推出 MedMNIST 的 MATLAB API,方便 MATLAB 用户轻松使用标准化医学图像数据集,进一步扩大了项目的适用范围。
📚 开始你的医学图像研究之旅
MedMNIST 数据集不可用于临床用途,但作为研究和教育资源,它为医学图像分析领域提供了标准化、易用的基准。无论你是初学者还是资深研究者,都能通过这个项目快速开展医学图像分类相关研究。
立即安装 MedMNIST,开启你的医学图像分析之旅吧!如有任何问题,欢迎查阅项目文档或参与社区讨论。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



