Bilibili:CV缝合救星
🌈 小伙伴们看过来~
写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨
你的一点鼓励🌟,对我们来说就是超大的动力!
👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️
01 论文信息
论文题目: CAF-YOLO: A Robust Framework for Multi-Scale Lesion Detection in Biomedical Imagery (ICASSP 2025) 中文题目:CAF-YOLO:一种用于医学图像中多尺度病变检测的鲁棒框架即插即用模块:Attention and Convolution Fusion Module (ACFM) 注意力与卷积融合模块
02 论文概要
Highlight
图 1. CAF-YOLO 在 BCCD 数据集上的验证集性能对比结果清楚地表明,该方法能够成功检测出所有类别的阳性样本,且覆盖率令人满意。图像中以粉色框标出红细胞,以红色框标出白细胞,以橙色框标出血小板,绿色框则表示真实标注(ground truth)。
03 研究背景
🌧️ 存在的问题(背景动因)
① 局部感受野限制模型性能:传统的卷积神经网络(CNN)在提取图像特征时主要依赖局部感受野,难以捕捉图像中远距离的依赖信息,导致在处理微小病灶(如血小板、3mm 以下肺结节)时存在漏检风险。
② Transformer结构存在聚合瓶颈:Transformer 能够建模长距离依赖,但其 前馈网络(FFN)仅支持单尺度特征聚合,对不同尺度下病变结构的建模能力不足,容易造成对多尺度病灶的识别不充分。
③ 全局与局部特征难以兼顾:CNN擅长提取局部结构,Transformer擅长建模全局上下文,但如何有效融合二者优势,提升模型在医学图像中对复杂微小结构的感知能力仍是一项挑战。
④ 医学图像标注成本高昂:高质量医学图像数据集获取困难、标注成本高,对检测模型的准确性与泛化能力提出更高要求,尤其在数据量有限的场景下,鲁棒性不足的问题更为突出。
💡 解决思路(ACFM 核心贡献)
① 局部-全局联合建模机制:提出注意力与卷积融合模块(ACFM),通过并行的局部分支与全局分支结构,实现 CNN 与 Transformer 的优势互补,提升模型对微小病灶的感知能力与上下文建模能力。
② 全局分支引入轻量注意力机制:在全局分支中,设计基于1×1卷积与3×3深度卷积的注意力路径,以低成本方式建模图像中长距离依赖,增强模型对细粒度病变区域的全局感知能力。
③ 局部分支融合通道重排与深度卷积:引入 Channel Shuffle 操作与深度可分离卷积,提升特征表达的多样性与精度,有效避免过拟合问题,并增强局部纹理和边缘信息的保留能力。
④ 模块输出级联融合增强表达力:通过局部路径和全局路径输出的融合,实现细节与语义的协同增强,在保持轻量化的同时,强化对目标边界与复杂背景的识别能力。
04 模块原理解读
📌 模块解析 | Attention and Convolution Fusion Module (ACFM) 注意力与卷积融合模块
图 2. 所提出的注意力与卷积融合模块示意图,包含局部分支与全局分支。在局部分支中,应用卷积操作与通道重排(Channel Shuffling),以促进局部特征的提取;相反,在全局分支中引入注意力机制,有效建模并捕捉长距离的特征依赖关系。
📌 ACFM 模块设计聚焦于“局部-全局联合建模”与“低开销特征增强”,其核心由以下三个关键步骤构成:
① 局部分支建模局部纹理特征:在局部分支中,ACFM 引入 1×1 卷积与 Channel Shuffle 操作,结合深度可分离卷积模块,有效提升模型的特征表达能力,增强对边缘与纹理细节的捕捉能力。
② 全局分支捕获远距离依赖:全局路径采用 轻量注意力机制,利用 1×1 卷积 + 3×3 深度卷积生成 Query、Key、Value,通过特征维度内的自注意力运算,建模图像中长程依赖,强化语义信息的全局建模。
③ 融合输出实现特征增强:局部与全局分支输出在通道维度进行拼接融合,通过 残差连接与卷积映射 进行特征整合,兼顾细节与上下文,实现高效准确的医学目标检测建模。
🔍 该模块通过卷积与注意力机制的互补融合,增强了模型对微小病灶与复杂背景的感知能力,特别适用于血细胞、肺结节等结构复杂、尺度不一的医学图像检测任务。
05 创新思路
CV缝合救星原创模块
🧠 模块名称: ACFMAttentionPlus
(多尺度注意力卷积融合模块)
ACFMAttentionPlus 模块旨在融合局部卷积增强与多尺度注意力机制,通过引入多头建模、下采样全局感知、门控融合与相对位置偏置,有效捕捉图像中的长程依赖与细节纹理,特别适用于复杂医学图像、病灶区域检测与小目标定位等任务场景。该模块结构紧凑、接口友好,可即插即用地替代传统自注意力或非局部卷积模块。其核心机制如下:
① 多尺度注意力机制(创新点⭐):引入主干注意力路径与下采样分支,分别在原始分辨率与低分辨率下计算注意力响应,并通过双路径融合实现大中小目标的统一建模。
② 多头特征表示增强(创新点⭐):将通道划分为多个子空间(Head),分别进行归一化、注意力计算与特征聚合,提升空间分辨能力与跨区域感知能力。
③ 相对位置偏置建模结构感知(创新点⭐):引入可学习的位置偏置向量(Relative Positional Bias),弥补普通注意力中空间关系缺失的问题,提升结构建模能力。
④ 深度卷积路径强化边缘细节:局部分支使用 DWConv + 1×1 Conv + Channel Shuffle 结构,强化边界响应、边缘纹理信息,有效抑制低频背景干扰。
⑤ 门控融合机制提升鲁棒性(创新点⭐):采用门控残差机制对注意力输出与局部路径结果进行自适应融合,提升特征选择性与稳定性,尤其适用于高噪声环境。
⑥ 残差连接提升梯度传播效率:最终输出与原始输入进行残差相加,保持训练稳定性与特征一致性,促进深层网络收敛与表达。
🔍 ACFMAttentionPlus 模块兼顾空间建模与跨尺度感知能力,是一种融合高效注意力机制与轻量卷积增强的实用模块,适用于医学图像分割、检测与结构感知任务。
📌 输入:特征图
x ∈ [B, C, H, W]
│
▼
【Step 1】局部空间增强处理
├─ QKV生成 → DWConv 深度卷积融合
└─ 得到三路特征张量(q, k, v)
【Step 2】主干注意力路径(全分辨率)
├─ reshape → [B, heads, C//H, H×W]
├─ 注意力计算:Attn = Softmax(Q @ K^T) + Bias
└─ Output1 = Attn @ V → reshape回空间
【Step 3】下采样路径注意力
├─ AvgPool 降采样 → QKV
├─ 注意力计算并上采样
└─ Output2 = Attn @ V → Upsample
【Step 4】双路径融合
└─ Output = Output1 + Output2
【Step 5】局部分支通道增强
├─ QKV reshape → Local Conv 编码
└─ DWConv → Output_local
【Step 6】门控融合
└─ Fusion = Gate(Output, Output_local)
【Step 7】残差连接
└─ Fusion += x
📤 输出:增强后的特征图 ∈ [B, C, H, W]
06 模块适用任务
🎯 ACFMAttention 模块适用任务(局部卷积增强 + 全局注意力融合):
① 医学图像检测(Medical Object Detection):适用于血液细胞检测、肺结节定位等任务,通过局部卷积提升边界感知能力,全局注意力增强远距离语义建模。
② 小目标识别(Small Object Recognition):结合局部路径和注意力机制,在复杂背景中对微小目标(如路标、病灶点、遥感地物)表现优异。
③ 视频目标跟踪(Visual Tracking):在空间一致性与上下文连续性建模中具有优势,适用于帧间语义保持与遮挡补偿场景。
④ 场景解析与语义分割(Scene Parsing & Segmentation):适合复杂场景下的全景理解任务,卷积分支增强结构边界,注意力分支提取语义全局关系。
⑤ 工业检测(Industrial Inspection):如表面划痕检测、焊点缺陷定位等,通过融合机制提高对局部不规则纹理的识别精度。
🎯 ACFMAttentionPlus 魔改模块适用任务(多尺度注意力 + 相对位置偏置 + 门控融合):
① 结构性目标检测(Structured Object Detection):通过频率门控机制增强结构一致性建模,适用于交通标志、印刷电路板、建筑构件等规则结构目标识别。
② 小样本与弱监督学习(Few-shot / Weakly-supervised Learning):可借助频率响应先验强化关键区域表示,在样本有限或标注不全场景中表现稳定。
③ 纹理分类与缺陷检测(Texture Classification & Defect Inspection):频域注意力增强细节特征表达,对材料表面纹理判别、工业缺陷检测任务具有显著提升作用。
④ 多模态图像融合(Multimodal Fusion):适合在红外-可见光、CT-MRI 等多模态视觉任务中引入频率一致性建模,提升不同模态之间的信息对齐能力。
⑤ 轻量级高性能视觉模型(Efficient Vision Transformers):模块具有良好的参数效率比,适用于边缘部署需求强烈的场景,如移动终端、无人设备、实时视频分析等。
07 运行结果与即插即用代码
运行结果
🎯 ACFMAttention 模块
🎯 ACFMAttentionPlus
本文代码获取
每天看好文
扫码关注
福高照 祭灶神
扫尘土 贴窗花