Conditional-DETR 论文解析

最新推荐文章于 2024-10-22 15:17:43 发布

从现在开始壹并超

最新推荐文章于 2024-10-22 15:17:43 发布

阅读量1.5k

点赞数 4

分类专栏：计算机视觉网络模型-图像分类&目标检测文章标签：深度学习 pytorch 人工智能卷积神经网络

本文链接：https://blog.youkuaiyun.com/m0_45971439/article/details/120349063

版权

计算机视觉网络模型-图像分类&目标检测专栏收录该内容

10 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

Conditional-DETR通过引入conditional cross-attention机制，解决了DETR训练速度慢的问题。与原始DETR相比，Conditional-DETR在Res-50/101上训练速度快6.7倍，而在DC5-R50/101上快10倍。研究发现Conditional-DETR在50个epoch后的表现优于DETR训练500个epoch，证明了其效率优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/2108.06152
源码地址：https://github.com/Atten4Vis/ConditionalDETR

Conditional DETR for Fast Training Convergence

1. Abstract
2. Introduction & Related Work
3. Method
4. Experiments

1. Abstract

原始的DETR采用Transformer中的Encoder和Decoder结构进行目标检测，获得了可观的结果。在这篇论文中，为了解决DETR的训练速度慢的问题，引入一个conditional cross-attention机制来实现更快的DETR训练。原始的DETR中的coss-ateention module中方极大的依赖于content embeddings来实现4个角点的预测，增加对高质量的content embeddings的需求，并且每个object query的co-attended visual regions可能与查询需要预测的边界框无关。因此，从decoder embeddings中学习一个conditional spatial query，每个cross-head都能够关注一个包含不同区域的visual regions。不需要再浪费太多时间去寻找合适的attnetion regions，加快DETR的训练。实验结果表明，在使用Res-50/101为为backbone时，Conditional DETR相比DETR训练速度快6.7倍；而对于使用DC5-R50