基于相关性感知对比学习的掩码视频建模用于超声乳腺癌诊断
1 引言
乳腺癌是女性癌症死亡的主要原因之一。超声(US)成像无痛、经济且无辐射,广泛用于乳腺癌筛查,尤其是致密乳腺的评估。与传统的二维静态图像相比,乳腺超声视频包含更丰富的时空信息,对癌症诊断有益。然而,解读原始超声视频面临诸多挑战,如严重的数据依赖、监督信号稀缺、类间相似性和类内差异等。
目前,已有大量二维静态图像相关研究用于辅助乳腺癌诊断,传统方法通常提取手工纹理特征,近年来深度学习模型因强大的表示学习能力受到青睐。但这些二维方法难以处理高维度且标签稀缺的视频数据。部分研究尝试直接利用其他器官或模态的超声视频,但忽略了视频中的自然时空模式。
为解决这些问题,本文提出了一种名为“基于相关性感知对比学习的掩码视频建模(MVCC)”的新型视频分类框架,主要贡献如下:
- 首次直接利用常见B模式乳腺超声视频进行乳腺结节识别。
- 采用掩码视频建模,通过双级掩码策略充分利用有限数据和少量注释,从空间和时间维度提取特征。
- 提出相关性感知对比损失,选择性地约束高层表示,以应对类内差异和类间相似性。
2 方法
2.1 掩码视频建模
在视频分析中,最先进的深度学习模型容易过拟合,且标注视频数据集耗时费力。因此,本文采用自监督学习的自动编码器方法进行预训练,通过最小化重建视频与原始视频的差异,学习视频中的低层次模式和全局上下文信息,为后续的视频分类任务提供良好的初始化。
双级掩码策略
为了从空间和时间维度明确提取信息,提出双级掩码策略:
1. 帧级掩码