伪装目标检测:ZoomIn and Out: AMixed-scale Triplet Network for Camouflaged Object Detection(CVPR 2022)

ZoomNet 是一项针对伪装目标检测任务提出的创新性方法,受人类“放大-缩小”观察行为启发,构建了一个混合尺度三分支网络。该方法通过多尺度特征提取(Triplet Encoder)、尺度融合模块(SIUs)与分层混合尺度解码器(HMUs)协同挖掘微弱语义差异,显著增强模型对低对比度、模糊边界目标的识别能力。同时,引入不确定性感知损失(UAL)以提升对模糊区域的鲁棒性,在多个COD数据集上全面超越现有主流方法,展现出卓越的检测性能与良好的泛化能力。

模型结构:

整体流程:

一、输入:Mixed-scale 图像

  • 模拟人眼“缩放”观察模糊目标的过程。

  • 图像被缩放为三个尺度:

    • 主尺度(Main Scale):1.0×

    • 辅助尺度(Auxiliary Scales):0.5× 和 1.5×

  • 三个尺度共享一套编码器结构,统一提取多尺度信息。

二、Triplet Feature Encoder(三分支特征编码器)

  • 包含两个子模块:

    • E-Net:特征提取(用的是 ResNet-50 前几层)

    • C-Net:通道压缩(用于降维和减少计算)

  • 三个尺度图像分别经过 E-Net 和 C-Net,输出多尺度的五层特征金字塔。

三、Scale Merging Layer(尺度融合层)

  • 中间的蓝色部分。

  • 每一层(共5层)分别包含一个 SIU(Scale Integration Unit),用于融合多尺度特征。

  • 融合方式:

    • 辅助尺度(0.5×、1.5×)通过插值对齐主尺度(1.0×)的分辨率;

    • 计算每尺度的注意力权重;

    • 三尺度加权融合 → 输出一个融合特征。

四、Hierarchical Mixed-scale Decoder(层级式混合尺度解码器)

  • 类似 U-Net 的结构,采用 Top-down 逐层上采样融合。

  • 每一层融合模块是一个 HMU(Hierarchical Mixed-scale Unit),作用:

    • 通道分组:将通道划分为若干组,组内串联处理;

    • 通道调制:自动调节每组通道的重要性;

    • 增强多尺度特征表达能力。

  • 每个 HMU 输出特征都会上采样(×2)与上层融合。

 五、Supervision(监督与损失函数)

  • 解码器最终输出为预测概率图 Pred。

  • 使用两种损失进行训练:

    1. BCE(Binary Cross Entropy)Loss:与 GT 标签直接比对;

    2. UAL(Uncertainty-aware Loss):增强对模糊/不确定区域的区分能力。

  • 联合优化,提升目标边缘、低置信度区域的检测质量。

模块:

尺度融合单元(Scale Integration Unit, SIU):将三个不同缩放尺度(0.5×、1.0×、1.5×)的特征整合成一个融合特征 ​,并显式建模各尺度对当前特征层的重要性。

模块分为三个主要阶段:

  1. Scale Transformation(尺度对齐)

  2. Attention Generator(注意力生成器)

  3. Selective Scale Integration(选择性融合)

Scale Transformation:将不同尺度统一成相同分辨率

- 上采样路径(处理 f_{i}^{0.5\times}​)

  • 使用 双线性插值(Bilinear) 和卷积对低分辨率特征进行放大;

  • 输出与主尺度f_{i}^{1.0\times} 相同空间大小。

- 下采样路径(处理 f_{i}^{1.5\times}​)

  • 使用 最大池化 + 平均池化 的组合(避免信息丢失),再卷积;

  • 降采样高分辨率特征,使其与主尺度对齐。

- 主尺度 f_{i}^{1.0\times }

  • 直接卷积处理,无需缩放;

  • 三者现在拥有统一的空间尺寸,准备融合。

Attention Generator:生成注意力权重

  • 将三个尺度特征拼接后送入三组卷积模块;

  • 输出三张注意力图 A_{i}^{0.5\times }A_{i}^{1.0\times}​、A_{i}^{1.5\times}​;

  • 使用 Softmax 保证每个像素位置上三个注意力值之和为 1,实现相对加权。

 Selective Scale Integration:加权融合

  • 使用注意力权重对各尺度特征逐像素加权求和:

    f_{i}=A_{i}^{0.5\times }\cdot f_{i}^{0.5\times }+A_{i}^{1.0\times }\cdot f_{i}^{1.0\times }+A_{i}^{1.5\times }\cdot f_{i}^{1.5\times }

  • 融合结果 ​ f_{i}作为该层最终输出,已融合三尺度感知能力。

分层混合尺度单元:该模块位于解码器中,用于对融合后的特征​ \hat{f}_{i}进一步增强语义表达、提升通道间判别力

  • 每个 HMU 接收两个输入:

    1. 当前层 SIU 输出的特征 f_{i}

    2. 上一层 HMU 的输出,经过双线性上采样后的特征 \tilde{f}_{i+1}

  • 它们在进入 HMU 之前就已经加在一起(即:

\hat{f}_{i}=f_{i}+Upsample\left ( \tilde{f}_{i+1} \right )

输入:特征\hat{f}_{i}

  • 来源于上一个解码阶段或上一层 SIU 输出。

  • 首先送入一个轻量的 卷积模块(Conv + BN + ReLU) 进行特征转换;

  • 然后在通道维度上进行分组(Split)为G组{g1​,g2​,...,gG​}。

Group-wise Interaction(左中部分)

  • 每组特征 g_{j}​ 都经历一个三分裂(类似 Bottleneck):

    $g_j \xrightarrow{\text{Conv}} \left( g_j^{​{}'1}, g_j^{​{}'2}, g_j^{​{}'3} \right)$

  • 其中:

    • g_{j}^{​{}'1}:保留给下一组做上下文传递;

    • g_{j}^{​{}'2}:用于生成通道注意力向量;

    • g_{j}^{​{}'3}:作为被调制的内容流。

  • 除了第一组 g_{1}​,每组都会将前一组的 g_{j}^{​{}'1} 与本组 g_{j}​ 连接后再处理(即跨组残差融合)→ 引入上下文依赖。

 Channel-wise Modulation(右中部分)

  • 所有组的 \left\{ g_j^{​{}'2} \right\}_{j=1}^{G}​ 被拼接,并经过一个轻量卷积网络(Conv + ReLU + BN + Sigmoid)生成注意力向量 α;

  • 同时 \left\{ g_j^{​{}3} \right\}_{j=1}^{G}​ 拼接得到内容特征;

  • 用注意力向量 α 对内容流逐通道调制(乘法),然后:

    \tilde{f}_i = \text{ReLU} \left( \hat{f}_i + \text{Conv} \left( \alpha \cdot \text{Concat} \left( \left\{ g_j^{​{}'3} \right\} \right) \right) \right)

损失函数:

总损失函数:

\mathcal{L} = \mathcal{L}_\text{BCEL} + \lambda \cdot \mathcal{L}_\text{UAL} 

 1.Binary Cross Entropy Loss(BCEL),这是标准的像素级损失函数,用于衡量模型输出与 Ground Truth(GT)之间的差异:

 \mathcal{L}_\text{BCEL} = -\sum_{i,j} \left[ g_{i,j} \log(p_{i,j}) + (1 - g_{i,j}) \log(1 - p_{i,j}) \right]

其中:

  • g_{i,j} \in \{0, 1\}:GT 标签;

  • $p_{i,j} \in [0, 1]$:预测概率图;

但是对模糊边界和低对比区域,BCE 会产生低梯度,容易训练困难

2.Uncertainty-aware Loss(UAL),为解决上述问题,ZoomNet 引入了 不确定性感知损失,专门强化对模糊区域(概率值接近 0.5 区域)的训练力度:

\mathcal{L}_\text{UAL} = \sum_{i,j} \left( 1 - \left| 2p_{i,j} - 1 \right|^2 \right)

核心思想:

预测值越接近 0.5 → 越模糊 → 应该加大惩罚力度
预测值越接近 0 或 1 → 越明确 → 惩罚减少

  • 当 p_{i,j}=0.5 时 → 损失最大(1.0)

  • p_{i,j}=0 or1 时 → 损失最小(0)

本质上鼓励模型的输出趋于“极化”(即不是 0 就是 1),缓解模糊边界区域预测不确定性。

原文链接:[2203.02688] Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值