MICCAI2023论文多模态论文速读-3

原创

已于 2023-11-15 09:59:34 修改 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2023-11-15 09:58:08 首次发布

文章介绍了MUVF-YOLOX，一种用于肾肿瘤诊断的多模态超声视频融合网络，利用注意力机制融合不同模态信息，通过时间聚合模块优化诊断性能。研究了单帧检测和基于视频的诊断阶段，以及注意力机制在性能提升中的作用。

11.MUVF-YOLOX: A Multi-modal Ultrasound Video Fusion Network for Renal Tumor Diagnosis

Li J, Huang H, Ni D, et al. MUVF-YOLOX: A Multi-modal Ultrasound Video Fusion Network for Renal Tumor Diagnosis[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 642-651.【开放源码】

这篇文章提出多模态超声视频融合网络，设计了基于注意力的多模态融合模块，使用交叉注意力和自注意力并行提取模态不变特征和模态特定特征。此外，还设计了一个对象级时间聚合（OTA）模块，可以自动过滤低质量特征并有效地集成来自多个帧的时间信息用于肾肿瘤诊断。

该框架可分为两个阶段：单帧检测阶段和基于视频的诊断阶段。

(1) 在单帧检测阶段：

网络预测多模态CEUS视频剪辑中每一帧的肿瘤边界框和类别。
采用双分支主干网络从两个模态中提取特征，随后使用AMF模块融合这些特征。
在诊断过程中，经验丰富的放射科医生通常会考虑超声图像的全局特征。因此，将YOLOX的主干网络从CSP-Darknet修改为Swin-Transformer-Tiny，这凭借其全局建模能力是一个更合适的选择。

(2) 在基于视频的诊断阶段：

网络根据单帧检测结果自动选择每帧的高置信度区域特征，并执行时间聚合以输出更准确的诊断。

上述两个阶段是连续训练的。首先，进行强大的数据增强来对网络进行单帧的肿瘤检测和分类训练。之后，将第一阶段模型切换为评估模式并预测视频剪辑中每帧的标签。最后，训练OTA模块以聚合时间信息，实现精确诊断。

AMF模块：交叉注意力和自注意力分别获取融合特征和各自模态特征，最后进行特征拼接。

$\begin{array}{c} F_{\text {invar }}=\operatorname{Softmax}\left(\frac{Q_{B} K_{C}^{T}}{\sqrt{d}}\right) V_{C}+\operatorname{Softmax}\left(\frac{Q_{C} K_{B}^{T}}{\sqrt{d}}\right) V_{B} \\ F_{B-\text { spec }}=\operatorname{Softmax}\left(\frac{Q_{B} K_{B}^{T}}{\sqrt{d}}\right) V_{B}+F_{B} \\ F_{C-\text { spec }}=\operatorname{Softmax}\left(\frac{Q_{C} K_{C}^{T}}{\sqrt{d}}\right) V_{C}+F_{C} \\ F_{A M F}=\text { Concat }\left(F_{B-\text { spec }}, F_{\text {invar }}, F_{C-\text { spec }}\right) \end{array}$

最低0.47元/天解锁文章