0. 前言
- 相关资料:
- 论文基本信息
- 领域:目标检测
- 作者单位:商汤
- 发表时间:2020.10
- 一句话总结:在DETR中加入了Deformable
1. 要解决什么问题
- DETR存在一些问题:
- 收敛速度慢(需要训练更多的epochs)
- Transformer处理图像数据时,feature spatial resolution受限。
- Faster RCNN中,处理小目标问题一般是使用FPN。但在DETR中,使用FPN并不现实。因为会导致计算量大幅度增加。
- 而DETR中存在的问题,都可以归结为,在使用Transformer处理图像特征时,会处理所有可能的空间位置。
- 可能意思是,处理的位置太多了,没有抓住重点?
- 原文如下
The core issue of applying Transformer attention on image feature maps is that it would look over all possible spatial locations.

该博客探讨了DETR在目标检测中的局限性,如收敛速度慢和处理小目标的困难。通过引入可形变注意力模块,提出了Deformable DETR,旨在解决Transformer在图像特征处理中的效率问题。文章介绍了Deformable DETR的结构,包括多尺度可形变注意力模块和两阶段变形Transformer,以及这些改进如何提高性能并减少训练时间。同时,还讨论了进一步的优化策略,如迭代框精炼和两阶段解码器。实验结果显示效果显著,但仍有改进空间,建议深入理解DETR源码以进行更多研究。
最低0.47元/天 解锁文章
779





