乳腺癌检测综述,从机器学习到深度学习全面盘点

目录

引言

机器学习方法在乳腺癌检测中的应用

🔹 2002–2010:早期浅层方法与特征驱动模型

🔹 2010–2015:特征融合与集成分类器引入

🔹 2016–2018:半深度模型 & 混合方法崛起

🔹 2019–2022:深度学习过渡期与改进型机器学习方法

深度学习方法在乳腺癌检测中的进展

早期阶段(2015–2017):CNN初试水温

成长期(2018–2020):架构优化与分割突破

高潮阶段(2021–至今):Transformer引入与多模态融合

1. Transformer架构崭露头角

2. 多任务与多模态模型涌现

3. 注意力机制与可解释性研究兴起

4. 性能表现持续刷新

公开数据集与评估指标

1. 常用公开乳腺癌数据集一览

2. 模型评估指标


引言

博主最近新开一篇乳腺癌检测论文,想着相关工作这块写都写了,就拿出来分享一下,希望能对正在进行乳腺癌检测的朋友有帮助。

机器学习方法在乳腺癌检测中的应用

🔹 2002–2010:早期浅层方法与特征驱动模型

  1. 2002 — KNN + 特征选择(Keller et al.)
    使用纹理和密度等手工特征,通过 K-近邻(KNN)对乳腺肿块进行分类。
    → 提出早期基于手工特征的传统框架。

  2. 2004 — PCA + SVM(Elter et al.)
    通过主成分分析对特征降维,并使用 SVM 分类。
    → 提升模型稳定性,但易过拟合。

  3. 2007 — 决策树 + 粗糙集(Rough Set Decision Tree)
    采用粗糙集理论进行不确定性建模,并结合决策树进行分类。
    → 适用于小样本任务,抗噪声能力强。


🔹 2010–2015:特征融合与集成分类器引入

  1. 2012 — 多特征融合 + SVM(Ayer et al.)
    综合纹理、形状等多种手工特征,使用 SVM 分类良恶性肿块。
    → 特征维度高、分类性能提升。

  2. 2013 — LDA + RF(Linear Discriminant Analysis + Random Forest)
    使用 LDA 降维后,采用随机森林进行高维分类。
    → 分类性能稳定,适用于高维数据。

  3. 2014 — 多特征选择 + ANN(人工神经网络)
    通过遗传算法优化特征子集,输入到神经网络中。
    → 提出“特征选择 + 分类器”模式。


🔹 2016–2018:半深度模型 & 混合方法崛起

  1. 2016 — CNN 特征 + Extreme Learning Machine(ELM)
    使用 CNN 提取高层特征,结合无监督极限学习机进行聚类与分类(Wang et al.)。
    → 深度特征 + 传统分类器的早期结合。

  2. 2017 — PCA + SVM/RF(Sameti et al.)
    进一步优化 PCA 降维与分类器组合策略,在 DDSM 上测试。
    → 提升了传统方法在图像任务上的实用性。

  3. 2018 — 多特征融合(纹理、密度、形态) + ELM 聚类
    Wang 等人提出的一种多特征融合策略,适用于乳腺肿块分类。
    → 实测分类准确率达 97.2%,是该时期最高性能之一。


🔹 2019–2022:深度学习过渡期与改进型机器学习方法

  1. 2019 — CNN + SVM(特征提取+判别)
    深度 CNN 用于提取特征,SVM 替代 softmax 输出层进行分类。
    → CNN 与传统机器学习的混合形式。

  2. 2020 — Deep Belief Network (DBN) + 特征压缩
    采用深度置信网络建模,结合 PCA 压缩特征维度。
    → 体现出“深+浅”混合建模思想。

  3. 2021 — CNN + Ensemble(集成分类器)
    多种分类器集成(如 ANN, RF, KNN),使用 CNN 作为统一特征提取器。
    → 强化泛化能力、鲁棒性提升。

  4. 2022 — Transfer Learning + SVM / RF
    基于预训练模型提取特征(如 ResNet、VGG),后接传统分类器分类。
    → 成为深度学习过渡时期的主流思路,适用于小样本任务。

深度学习方法在乳腺癌检测中的进展

随着图像数据量的激增和GPU等硬件的普及,深度学习(Deep Learning, DL)自2015年后迅速成为乳腺癌检测研究的主流技术。相比传统机器学习依赖手工特征提取,深度学习能够端到端自动提取判别特征,极大提高了乳腺X线图像(mammogram)在分类、检测、分割等任务中的表现。

早期阶段(2015–2017):CNN初试水温

最早应用于乳腺癌影像的深度学习模型以卷积神经网络(CNN)为主,采用全图分类或ROI图块识别的方式处理乳腺X线图像。例如:

  • 2016年,研究者将AlexNet、VGG等经典CNN架构用于CBIS-DDSM、INbreast等公开数据集,验证其在良恶性分类任务上的可行性;

  • 2017年,Shen等人提出的深度CNN模型在乳腺X线良恶性分类中准确率达到0.88,超过放射科医生的平均水平;

  • 同年,Yala等基于CNN开发了乳腺癌风险预测模型,AUC高达0.84,首次将DL用于“未来发病概率”评估。

这一时期的工作奠定了深度学习在乳腺癌检测中的可行性基础,但仍依赖大量训练数据、模型可解释性弱、泛化能力有限。

成长期(2018–2020):架构优化与分割突破

从2018年起,学者们逐渐探索更加高效和细粒度的任务设计,分割与检测任务得到突破。代表性进展包括:

  • U-Net与其变种(如Dense U-Net、Residual Attention U-Net)被广泛用于肿块和管腔区域的精准分割,Dice系数普遍可达90%以上

  • Mask R-CNNCRU-Net等目标检测与分割结合的方法,提升了乳腺肿块检测的精度;

  • **迁移学习(Transfer Learning)**逐步成为标准训练流程,借助ImageNet预训练模型在小样本乳腺数据集上微调,显著缓解了过拟合问题;

  • **Ensemble Learning(集成学习)**技术引入,提高模型稳定性和鲁棒性。

这一阶段,深度学习模型的表现开始全面超过传统机器学习方法,尤其在良恶性分类任务中,多个研究报告准确率超95%

高潮阶段(2021–至今):Transformer引入与多模态融合

近年来,深度学习在乳腺癌检测领域继续深化,呈现出以下趋势:

1. Transformer架构崭露头角

2021年后,Vision Transformer(ViT)Swin Transformer等架构开始应用于乳腺X线图像分析,具备更强的全局建模能力。与传统CNN相比,Transformer更擅长处理跨视角、跨尺度的信息,尤其适合双视图融合(CC+MLO)等复杂任务。

2. 多任务与多模态模型涌现

最新模型如DualCoreNetInception-ResNet-v2等,不仅在图像分类上表现优异,还能融合病人基因信息、临床指标进行乳腺癌风险评估,体现出深度学习的跨模态能力。

3. 注意力机制与可解释性研究兴起

为了提升模型的可解释性,研究者引入了SE-NetChannel Attention等机制,以及Grad-CAM、特征可视化等技术,使模型的预测过程对医生更透明、可信。

4. 性能表现持续刷新

多个最新研究模型在公开数据集上的分类准确率达到99%以上,如2022年提出的CNN+Fine-tune方法在DDSM数据集上达到了99.96%的准确率100%的敏感性,接近临床可用水平。

公开数据集与评估指标

构建高质量的乳腺癌深度学习检测系统,离不开公开数据集的支撑与严谨的评估指标体系。为保证模型性能的可复现性与公平性,当前主流研究通常基于多个乳腺影像数据集进行训练和测试。

1. 常用公开乳腺癌数据集一览

以下是深度学习研究中最常见的乳腺影像数据集,每个数据集都有其特定用途与特点:

数据集名称类型特点与用途
CBIS-DDSM乳腺X线(Mammogram)来自DDSM的标准化子集,包含图像+ROI标注,适用于检测、分割、分类任务。
INbreast乳腺X线图像质量高,提供病灶精确标注,常用于肿块分割和分类研究。
MIAS乳腺X线较小的数据集,适合快速原型验证,包含良/恶性标签与位置。
BreakHis显微图像收录多倍率下的良恶性组织切片图像,适合在更细粒度的病理图像上训练分类模型。
Wisconsin表格数据包含乳腺细胞特征(如半径、纹理等)的数值型数据,常用于早期ML方法测试。
Coimbra表格数据包括激素水平、年龄等生理数据,常用于乳腺癌风险预测。
ImageNet通用图像数据集尽管非医学领域,但作为预训练模型来源,常用于迁移学习提升效果。

这些数据集多用于监督学习,其中DDSM系列在深度学习中最为常用,而INbreast则以高分辨率和精准ROI成为分割任务的首选。

2. 模型评估指标

为了全面衡量模型的预测性能,通常使用以下多维度指标:

指标解释适用场景
准确率(Accuracy)所有正确预测的占比数据类别分布平衡时有效
灵敏度 / 召回率(Recall / Sensitivity)实际阳性中被正确识别的比例关注漏诊风险(如乳腺癌)时关键
特异度(Specificity)实际阴性中被正确排除的比例衡量误诊概率,防止过度治疗
精确率(Precision)预测为阳性中真实为阳性的比例应对假阳性问题,减少不必要的检查
F1分数(F1 Score)精确率与召回率的调和平均当正负样本不平衡时更能反映性能
AUC-ROC曲线下面积不同阈值下模型对正负样本的区分能力综合评估模型分类质量,尤其适合不平衡数据

以乳腺癌检测为例,高召回率代表能尽可能多发现潜在肿瘤,关键于早期诊断;而高精确率则避免过多误报,减少不必要的生理创伤或焦虑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值