基于递归门控卷积编码器的目标检测与系统稳定性研究
1. 研究背景与相关工作
在计算机视觉领域,Transformer编码器架构在基础视觉骨干网络中占据主导地位多年。不过,近期HorNet的出现带来了新的思路。它运用递归门控卷积实现高阶空间交互,将CNN的特征提取能力与Transformer的空间交互建模能力完美结合,为DETR类检测器中的传统自注意力Transformer编码器提供了有前景的替代方案。
1.1 DETR类模型
- DETR :利用Transformer解码器交叉注意力模块中查询和键嵌入的不同序列长度,实现所谓的集合预测,可处理有限的可学习对象。
- DeformableDETR :引入特定算子,为每个特征层选择前K个相关像素,并应用可变形注意力获得新特征图,将计算复杂度从O(L²)降至O(KL)(原论文中K设为4)。
- Conditional DETR :使用MLP将对象查询位置嵌入转换为与特征图相同的形式,并将查询位置作为对象边界框的参考点输入到预测头。
- Anchor DETR :将对象位置查询视为锚点,并提出多模式来解决一锚多对象问题。
- DAB DETR :将对象位置查询视为锚框,并引入宽度和高度调制的交叉注意力,使解码器对锚框的宽度和高度信息敏感。
- DN DETR :认为匈牙利匹配算法导致收敛速度慢,提出通过
超级会员免费看
订阅专栏 解锁全文
1682

被折叠的 条评论
为什么被折叠?



