ZoomNet 是一项针对伪装目标检测任务提出的创新性方法,受人类“放大-缩小”观察行为启发,构建了一个混合尺度三分支网络。该方法通过多尺度特征提取(Triplet Encoder)、尺度融合模块(SIUs)与分层混合尺度解码器(HMUs)协同挖掘微弱语义差异,显著增强模型对低对比度、模糊边界目标的识别能力。同时,引入不确定性感知损失(UAL)以提升对模糊区域的鲁棒性,在多个COD数据集上全面超越现有主流方法,展现出卓越的检测性能与良好的泛化能力。
模型结构:
整体流程:
一、输入:Mixed-scale 图像
-
模拟人眼“缩放”观察模糊目标的过程。
-
图像被缩放为三个尺度:
-
主尺度(Main Scale):1.0×
-
辅助尺度(Auxiliary Scales):0.5× 和 1.5×
-
-
三个尺度共享一套编码器结构,统一提取多尺度信息。
二、Triplet Feature Encoder(三分支特征编码器)
-
包含两个子模块:
-
E-Net:特征提取(用的是 ResNet-50 前几层)
-
C-Net:通道压缩(用于降维和减少计算)
-
-
三个尺度图像分别经过 E-Net 和 C-Net,输出多尺度的五层特征金字塔。
三、Scale Merging Layer(尺度融合层)
-
中间的蓝色部分。
-
每一层(共5层)分别包含一个 SIU(Scale Integration Unit),用于融合多尺度特征。
-
融合方式:
-
辅助尺度(0.5×、1.5×)通过插值对齐主尺度(1.0×)的分辨率;
-
计算每尺度的注意力权重;
-
三尺度加权融合 → 输出一个融合特征。
-
四、Hierarchical Mixed-scale Decoder(层级式混合尺度解码器)
-
类似 U-Net 的结构,采用 Top-down 逐层上采样融合。
-
每一层融合模块是一个 HMU(Hierarchical Mixed-scale Unit),作用:
-
通道分组:将通道划分为若干组,组内串联处理;
-
通道调制:自动调节每组通道的重要性;
-
增强多尺度特征表达能力。
-
-
每个 HMU 输出特征都会上采样(×2)与上层融合。
五、Supervision(监督与损失函数)
-
解码器最终输出为预测概率图 Pred。
-
使用两种损失进行训练:
-
BCE(Binary Cross Entropy)Loss:与 GT 标签直接比对;
-
UAL(Uncertainty-aware Loss):增强对模糊/不确定区域的区分能力。
-
-
联合优化,提升目标边缘、低置信度区域的检测质量。
模块:
尺度融合单元(Scale Integration Unit, SIU):将三个不同缩放尺度(0.5×、1.0×、1.5×)的特征整合成一个融合特征 ,并显式建模各尺度对当前特征层的重要性。
模块分为三个主要阶段:
-
Scale Transformation(尺度对齐)
-
Attention Generator(注意力生成器)
-
Selective Scale Integration(选择性融合)
Scale Transformation:将不同尺度统一成相同分辨率
- 上采样路径(处理 )
-
使用 双线性插值(Bilinear) 和卷积对低分辨率特征进行放大;
-
输出与主尺度
相同空间大小。
- 下采样路径(处理 )
-
使用 最大池化 + 平均池化 的组合(避免信息丢失),再卷积;
-
降采样高分辨率特征,使其与主尺度对齐。
- 主尺度
-
直接卷积处理,无需缩放;
-
三者现在拥有统一的空间尺寸,准备融合。
Attention Generator:生成注意力权重
-
将三个尺度特征拼接后送入三组卷积模块;
-
输出三张注意力图
、
、
;
-
使用 Softmax 保证每个像素位置上三个注意力值之和为 1,实现相对加权。
Selective Scale Integration:加权融合
-
使用注意力权重对各尺度特征逐像素加权求和:
-
融合结果
作为该层最终输出,已融合三尺度感知能力。
分层混合尺度单元:该模块位于解码器中,用于对融合后的特征 进一步增强语义表达、提升通道间判别力。
-
每个 HMU 接收两个输入:
-
当前层 SIU 输出的特征
-
上一层 HMU 的输出,经过双线性上采样后的特征
-
-
它们在进入 HMU 之前就已经加在一起(即:
输入:特征
-
来源于上一个解码阶段或上一层 SIU 输出。
-
首先送入一个轻量的 卷积模块(Conv + BN + ReLU) 进行特征转换;
-
然后在通道维度上进行分组(Split)为G组{g1,g2,...,gG}。
Group-wise Interaction(左中部分)
-
每组特征
都经历一个三分裂(类似 Bottleneck):
-
其中:
-
:保留给下一组做上下文传递;
-
:用于生成通道注意力向量;
-
:作为被调制的内容流。
-
-
除了第一组
,每组都会将前一组的
与本组
连接后再处理(即跨组残差融合)→ 引入上下文依赖。
Channel-wise Modulation(右中部分)
-
所有组的
被拼接,并经过一个轻量卷积网络(Conv + ReLU + BN + Sigmoid)生成注意力向量 α;
-
同时
拼接得到内容特征;
-
用注意力向量 α 对内容流逐通道调制(乘法),然后:
损失函数:
总损失函数:
1.Binary Cross Entropy Loss(BCEL),这是标准的像素级损失函数,用于衡量模型输出与 Ground Truth(GT)之间的差异:
其中:
-
:GT 标签;
-
:预测概率图;
但是对模糊边界和低对比区域,BCE 会产生低梯度,容易训练困难
2.Uncertainty-aware Loss(UAL),为解决上述问题,ZoomNet 引入了 不确定性感知损失,专门强化对模糊区域(概率值接近 0.5 区域)的训练力度:
核心思想:
预测值越接近 0.5 → 越模糊 → 应该加大惩罚力度
预测值越接近 0 或 1 → 越明确 → 惩罚减少
-
当
时 → 损失最大(1.0)
-
当
时 → 损失最小(0)
本质上鼓励模型的输出趋于“极化”(即不是 0 就是 1),缓解模糊边界区域预测不确定性。
原文链接:[2203.02688] Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection