医学影像分割常用数据集

        本篇文章主要按照模态对数据集进行分类,介绍主要的三大模态:CT、MRI、PET。

        “模态”(modality):医学图像分割中的“模态”指成像设备或技术生成的特定类型医学图像数据,不同模态基于不同物理原理,呈现的组织结构和病理特征存在差异。

        因此,“按模态分”即是以成像的物理能量源、信号采集方式、重建算法及最终数据表征为划分依据,而非按解剖部位或疾病类型。

CT(计算机断层扫描)

        CT通过X射线束围绕人体旋转扫描,探测器接收不同角度的衰减信号,利用反投影算法重建断层图像。其对比度基于组织对X射线的吸收差异,骨骼等高密度组织呈现高亮。

适用场景:

(1)骨组织分割:CT对钙化组织敏感,适用于骨折、骨肿瘤的精确分割。

(2)肺部结节检测:高分辨率CT可分割微小肺结节,辅助肺癌早期诊断。

(3)血管成像(CTA):结合造影剂,分割血管狭窄或动脉瘤。

主要数据集以及介绍:

(1)BTCV/Synapse

        BTCV = “Beyond the Cranial Vault” – 2015 MICCAI 多图谱腹部标记挑战赛官方命名。

        Synapse = 数据托管平台(Sage Bionetworks),社区常把 BTCV 称为 “Synapse 数据集”。

        BTCV(Beyond the Cranial Vault)即 Synapse 腹部多器官 CT 分割数据集,由 Vanderbilt 门脉期 30 例增强 CT 组成,官方固定 18 训练 / 12 测试,提供 8 (脾、左肾、右肾、胆囊、肝、胃、主动脉、胰)或 13 类(上述 8 类 + 食道、下腔静脉、门静脉/脾静脉、左肾上腺、右肾上腺)精细器官标签,空间分辨率 0.5–1 mm² × 2.5–5 mm,CC BY 4.0 公开,已作为腹部分割基准被 200+ 论文引用,2025 年 8 类平均 Dice 标杆 87.2 %。

(2)LiTS

        LiTS(Liver Tumor Segmentation Challenge)是 2017 年 MICCAI 公开的腹部 CT 分割基准,含 201 例多中心门脉期增强 CT(131 训练 / 70 测试),提供肝脏与肝肿瘤两级 mask,图像分辨率 0.56–1.0 mm(轴位)× 0.45–6.0 mm(层厚),覆盖 HCC、转移瘤等多种病变,被 1000+ 论文用作肝脏分割通用基准 。

(3)KiTS

        KiTS(Kidney Tumor Segmentation)系列数据集是迄今最大、最权威的肾脏及肾肿瘤 CT 分割公开资源,最新版 KiTS23 含 599 例多中心、多期相(late arterial + nephrogenic)增强 CT,训练 489 / 测试 110 例,提供肾脏、肿瘤、囊肿三类逐体素 mask,体素间距 0.39–1.04 mm(面内)× 0.5–5 mm(层厚),512×512 矩阵,总计 95 k 切片,已作为 MICCAI 2023 挑战赛基准,支持肾部分切术规划与肿瘤侵袭性研究。

(4)MSD-Pan

        MSD-Pancreas(社区常简写为 MSD-Pan)是 Medical Segmentation Decathlon 挑战赛 Task07 的腹部 CT 胰腺分割数据集,含 420 例门脉期增强 3D-CT(281 训 / 139 测),提供胰腺与胰腺肿瘤两类逐体素标签,体素间距 0.5–1.0 mm(面内)× 0.5–5.0 mm(层厚),512×512 矩阵,覆盖导管腺癌、神经内分泌瘤等三类常见胰腺肿瘤,因小肿瘤体素占比 <1 % 被公认为 MSD 十项任务中最难分割项目之一。

(5)FLARE23

        FLARE23(Fast, Low-resource, and Accurate oRgan and Pan-cancer sEgmentation in Abdomen CT)是 MICCAI 2023 发布的迄今最大腹部 CT 半监督分割基准,共 4 500 例 3D-CT(4 000 训练 + 100 在线验证 + 400 隐藏测试),其中 2 200 例提供14 类标签:13 种正常腹部器官(肝、脾、胰、左右肾、胃、胆囊、食道、十二指肠、主动脉、下腔静脉、左右肾上腺)+ 1 类“泛癌肿瘤”掩膜(仅部分病灶勾画),体素间距 0.44–3.0 mm(面内)× 0.45–8.0 mm(层厚),512×512 矩阵,总计 124 万切片。

MRI(磁共振成像)

        MRI利用强磁场和射频脉冲激发氢原子核,检测其弛豫信号(T1/T2加权)。软组织对比度优异,无电离辐射。

适用场景:

(1)脑组织分割:区分灰质、白质、脑脊液,用于阿尔茨海默病或多发性硬化症研究。

(2)肿瘤边界界定:如胶质瘤分割,依赖T2加权像的高软组织分辨率。

(3)关节软骨评估:膝关节MRI分割可量化软骨损伤程度。

主要数据集以及介绍:

(1)ACDC

        ACDC(Automated Cardiac Diagnosis Challenge)是 MICCAI 2017 发布的心脏 cine-MRI 分割基准,含 100 例短轴电影序列(end-diastolic & end-systolic 两期),每例 8–15 层 2D 切片,体素 1.37–1.68 mm² × 5–10 mm,提供 左心室腔、右心室腔、心肌 三类逐像素 mask 及射血分数标签,官方划分 70 训 / 10 验证 / 20 测试。

(2)ATLAS

        ATLAS v2.0 是 MICCAI 2023 发布的 T1-CE-MRI 肝脏肿瘤分割数据集,含 955 例 3D 扫描(655 训练 + 300 隐藏测试),空间分辨率 1 mm 等方体,提供肝脏与肿瘤两类逐体素标签,经 MNI-152 配准、去面及强度归一化预处理,已作为肝脏 MRI 小病灶分割基准。

(3)LLD-MMRI

        LLD-MMRI(Liver Lesion Detection-Multi-phase MRI)是首个公开的大规模多期相肝脏病变 MRI 分割数据集,由 498 例独特患者组成,涵盖 HCC、ICC、转移瘤、囊肿、血管瘤、FNH、脓肿等 7 类常见肝脏局灶性病变;每例病变完整采集 8 个期相/序列(非增强、动脉、静脉、延迟、T2、DWI、T1 同/反相位),共 3 984 组 3D 图像,原始体素平均 503×352×163,已用 MedSAM2 人机闭环流程逐病灶勾画像素级 mask,并提供 3D 与切片级边界框,固定划分 316 训练 / 78 验证 / 104 测试,数据与分割标签已开源于 Hugging Face,被 MICCAI 2025 挑战赛采用,是肝脏 MRI 小病灶检测与分割的当前最大公开资源。

(4)BraTS21

        BraTS21(Brain Tumor Segmentation 2021)是 MICCAI-RSSNA-ASNR 联合发布的迄今最大规模多参数 MRI 大脑胶质瘤分割挑战赛数据集,含 2 040 名患者共 8 160 组 3D mpMRI(T1、T1ce、T2、FLAIR),经颅骨剥离与 1 mm³ 各向同性重采样,统一尺寸 240×240×155;其中 1 251 例公开标注(增强肿瘤 ET、瘤周水肿 ED、坏死核心 NCR),219 例验证 + 570 例测试标签隐藏。

PET(正电子发射断层扫描)

        注射放射性示踪剂(如FDG)后,检测正电子湮灭产生的γ光子,反映代谢活性。常与CT/MRI融合(PET-CT/PET-MRI)。

适用场景:

(1)肿瘤代谢活性分析:分割高FDG摄取区域,用于癌症分期或疗效评估。

(2)神经退行性疾病:结合淀粉样蛋白示踪剂,分割阿尔茨海默病的异常蛋白沉积。

(3)心肌存活评估:分割心肌代谢活性区域,判断缺血性心脏病的可逆损伤。

多模态融合数据集

        在医学影像分割语境下,多模态融合指将CT、MRI、PET等不同医学影像模态的数据进行联合处理,通过整合各模态的互补信息,提升分割任务的精度和鲁棒性。CT提供高分辨率解剖结构,MRI擅长软组织对比,PET反映功能代谢信息,融合后可弥补单一模态的局限性。

        CT提供高密度对比(骨、钙化、碘对比),MRI提供软组织多参数对比(T1、T2、FLAIR、DWI),PET提供代谢/功能对比(FDG、淀粉样蛋白摄取)。

        融合方式按数据抽象层级分为像素级(输入层拼接HU+MR强度+SUV)、特征级(编码器各自提取后通道级联或交叉注意力)与决策级(三网络分别预测后多数投票或贝叶斯平均),最终输出统一分割掩膜,其数学本质是利用不同模态的互补先验分布p_modality(⋅)乘积最大化联合后验p(label|CT,MR,PET),从而提升小病灶、边界模糊区及功能-解剖不一致区域的 Dice 与 NSD 指标。

关键技术挑战

配准对齐:不同模态的成像原理导致空间差异,需严格配准。

模态不平衡:PET分辨率较低,需设计均衡的特征提取策略。

计算复杂度:多模态数据量增大,需轻量化模型设计。

典型应用场景

(1)肿瘤分割:结合PET的代谢热点与MRI的软组织边界。

(2)脑结构分析:CT定位颅骨,MRI分割灰质/白质,PET辅助病变检测。

主要数据集以及介绍:

(1)CHAOS

        CHAOS(Combined (CT-MR) Healthy Abdominal Organ Segmentation)是 ISBI 2019 发布的腹部跨模态分割基准,核心亮点是40 例健康志愿者成对采集门脉期 CT 与多序列 MRI(T1-DUAL in/out-phase + T2-SPIR),但标注非完全对应:CT 仅提供肝脏掩膜,MRI 提供肝脏、左肾、右肾、脾脏四类掩膜;官方划分 20 例训练 / 20 例测试(无标签),体素间距 CT≈0.7 mm×1.6 mm、MRI≈1.5 mm×6 mm,512×512 矩阵,已作为跨模态配准、域适应与融合分割的“小样本”经典基准

注:

        在 MRI 中,T1 与 T2 描述的是氢质子自旋系统受射频脉冲扰动后恢复平衡的两个独立时间常数,直接决定图像对比度:

        T1(纵向弛豫时间):射频关闭后,质子群沿主磁场方向(z 轴)的磁化强度 Mz 恢复到 63 % 所需时间;T1 越短,脂肪、蛋白质等分子运动频率接近拉莫尔频率,能量回流快,信号恢复高,表现为高信号(亮)。

        T2(横向弛豫时间):射频关闭后,质子间相位一致性丧失,xy 平面磁化强度 Mxy 衰减到 37 % 所需时间;T2 越短,局部磁场不均导致相位散相快,信号衰减快,表现为低信号(暗)。

        临床利用 T1 与 T2 的差异,通过选择 TR、TE 等序列参数,可分别获得 T1 加权像(短 TR/短 TE,突出脂肪与解剖结构)与 T2 加权像(长 TR/长 TE,突出水肿与病变)。

(2)AMOS

        AMOS(A large-scale Abdominal Multi-Organ Segmentation benchmark)是 MICCAI 2022 发布的腹部多器官、多模态分割数据集,含 500 例 CT + 100 例 MRI(共 600 名患者,来自 8 台扫描仪),覆盖 15 类腹部器官(脾、左右肾、胆囊、食道、肝、胃、主动脉、下腔静脉、胰、左右肾上腺、十二指肠、膀胱、前列腺/子宫),提供 74 k+ 逐层 voxel 级掩膜;官方划分 CT:200 训 / 100 验证 / 200 测试,MRI:40 训 / 20 验证 / 40 测试,体素间距 0.8–6.0 mm,经半自动+五名初级+三名高级放射科医师迭代标注,CC BY-NC-SA 许可,已作为最大规模腹部多器官基准。

补充

CT 

        CT(Computed Tomography)数据集通常包含高分辨率的解剖结构信息,适合用于器官、骨骼或肿瘤的精确分割。这类数据集常与MRI或PET配准融合,以结合CT的解剖细节与其他模态的功能或软组织对比度优势。例如,一些公开数据集提供头颈部或胸腹部的CT-MRI配对数据,用于肿瘤或脑部病变研究。

MRI 

        MRI(Magnetic Resonance Imaging)数据集以其优异的软组织对比度著称,常用于脑部、肌肉或肿瘤的精细分割。融合数据集可能包含T1、T2、Flair等不同加权序列,或与PET结合以补充代谢信息。例如,BraTS(脑肿瘤分割挑战赛)数据集提供多中心、多模态的MRI数据,用于胶质瘤分析。

PET 

        PET(Positron Emission Tomography)数据集主要提供代谢或功能信息,常与CT或MRI结合以定位病变区域。例如,FDG-PET/CT数据集广泛用于癌症研究,其中PET显示高代谢区域,而CT提供解剖定位。一些公开数据集还包含动态PET与MRI的融合,用于神经退行性疾病的深入研究。

### 眼部医学图像分类数据集 对于眼部医学图像分类的任务,可以考虑以下几个公开可用的数据集: #### iChallenge-PM 数据集[^1] 该数据集中包含了病理性近视患者以及非病理性近视患者的眼底图片。这些图片按照特定的命名规则进行了整理,便于研究者快速区分不同类型的样本。 #### 眼疾分类数据集[^2] 这是一个包含 **1800 张图片** 的多类别眼疾分类数据集,涵盖了以下六种常见眼科疾病: - 白内障 (Cataract) - 糖尿病视网膜病变 (Diabetic Retinopathy) - 青光眼 (Glaucoma) - 正常眼睛 (Normal) - 高度近视 (High Myopia) - 病理性近视 (Pathological Myopia) 此数据集适合用于训练和测试各种深度学习模型,例如卷积神经网络 (CNN),并能够帮助实现高精度的眼疾诊断系统。 #### 优快云 文库中的目标检测数据集汇总[^4] 如果需要更广泛的目标检测数据集支持,可以从 优快云 提供的资源中获取超过 **500 种目标检测数据集** 的下载链接集合。虽然其中大部分并非专门针对眼部医学图像设计,但仍可能找到一些适用于医疗领域的小众子集。 以下是基于 Python 和 PaddlePaddle 实现的一个简单示例代码片段来加载 ResNet50 模型并对上述提到的一种或多种数据集执行初步实验: ```python import paddle from paddle.vision.models import resnet50 from paddle.vision.datasets import DatasetFolder from paddle.vision.transforms import Compose, Resize, ToTensor # 定义预处理操作 transform = Compose([Resize(size=224), ToTensor()]) # 加载自定义数据集 dataset = DatasetFolder(root='./path_to_your_dataset', transform=transform) # 初始化ResNet50模型 model = resnet50(pretrained=True) print(model) ``` 以上脚本展示了如何利用飞桨框架下的 `resnet50` 函数创建一个预先经过 ImageNet 训练过的残差网络实例,并将其应用于新的任务上。当然也可以尝试替换其他架构比如 DenseNet 或 EfficientNet 来探索是否存在性能提升的可能性[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值