End-to-End Object Detection with Transformers

最新推荐文章于 2024-11-26 20:28:31 发布

M1kk0

最新推荐文章于 2024-11-26 20:28:31 发布

阅读量532

点赞数

分类专栏：目标检测文章标签：计算机视觉神经网络

本文链接：https://blog.youkuaiyun.com/qq_40028858/article/details/115319959

版权

DETR是一种端到端的目标检测方法，抛弃了传统的目标检测模块，如anchor和NMS。它采用Transformer结构，将目标检测转化为序列预测任务，通过二分图匹配进行损失计算。DETR在训练中使用匈牙利算法，但对小目标检测效果不佳，且训练时间较长。尽管如此，DETR简化了目标检测框架，与经典方法Faster R-CNN性能相当。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

End-to-End Object Detection with Transformers

会议：2020 ECCV

论文：https://arxiv.org/abs/2005.12872

代码：https://github.com/facebookresearch/detr

创新点：

\作者摒弃了基于anchor、NMS等这种需要手工设计的模块，和R-CNN系列、YOLO系列，以及其他anchor-free的方法都不同，减少检测器对先验性息和后处理的依赖，做到了真正的end2end。
使用类似机器翻译的序列预测思想，利用了transformer，其中的self- attention允许模型抑制重复的预测，跳出了目标检测的传统方法。

Instruction

将目标检测任务转化为一个序列预测（set prediction）的任务，没有使用two-stage方法的proposals，没有使用YOLO系列的先验框，也没有用到NMS。

总体的思路是：首先将图像输入到CNN中提取特征，特征+位置信息叠加后输入到tranformer中，输出固定个数的预测结果（一个GT对应一个预测结果）。训练过程中，用到了匈牙利算法和二分图匹配。

作者提出了DETR模块，使用transformer编码-解码器结构和二分图匹配的方法，由输入图像直接得到预测结果序列。transformer结构引入了自注意力机制，它的作用是在一个序列中，显式建模元素之间的所有成对的一种对应关系，使这些结构特别适合于一系列的预测。DETR一次性预测所有的object，整体的模型进行端到端训练，损失函数是在预测和GT上进行二分图匹配。因为是在集合上进行预测，为每一个预测结果分配一个GT，所以可以实现并行计算。

存在的问题：