卷积神经网络在乳腺癌诊断中的应用与解释
1. 背景与问题提出
浸润性导管癌(IDC)是最常见的乳腺癌形式。目前,诊断机构的病理学家通过对患者进行活检,取出小组织样本并在显微镜下分析,将组织的整个样本分割成小块,判断每个小块是否为 IDC 阳性或阴性,以此确定癌症的侵袭性和分级。现在,诊断机构希望扩展其人工智能系统的功能,使其能够自动评估组织样本的图像,确定每个小块是 IDC 阳性还是阴性,并给出置信度。这个问题可以被表述为一个二元分类问题,与之前不同的是,分类器的输入是图像,而非结构化的表格数据。
2. 探索性数据分析
- 数据集信息 :该图像数据集包含来自 279 名患者的组织样本和 277,524 张组织小块的图像。原始数据集来自 Kaggle,经过预处理以提取与这些图像相关的元数据。预处理笔记本和预处理后的数据集可在相关 GitHub 仓库中找到。
- 数据分布 :在 277,524 个小块中,大约 70% 为 IDC 阴性,30% 为 IDC 阳性,数据集高度不平衡。处理不平衡数据集时,需要注意两点:
- 使用正确的性能指标,如精度、召回率和 F1 值,来测试和评估模型。
- 对训练数据进行重采样,对多数类进行欠采样或对少数类进行过采样。
- 图像特征观察 :通过观察随机样本的 IDC 阳性和阴性小块图像(尺寸均为 50×50 像素),可以发现 IDC 阳性小块有更多深色染色的细胞,深色染色的密度也更高,通常用于染色细胞核;而
超级会员免费看
订阅专栏 解锁全文
803

被折叠的 条评论
为什么被折叠?



