DETR[端到端目标检测]

DETR目标检测模型介绍与使用

最新推荐文章于 2025-06-05 15:31:12 发布

原创

最新推荐文章于 2025-06-05 15:31:12 发布 · 1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：人工智能、话题分享

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

概述

在目标检测需要许多手工设计的组件，例如非极大值抑制（NMS），基于人工经验生成的先验框(Anchor)等。DETR这篇文章通过将目标检测作为一个直接的集合预测问题，减少了人工设计组件的知识，简化了目标检测的流程。给定一组固定的可学习的目标查询，DETR推理目标和全局图像的上下文关系，由于DETR没有先验框的约束，因此对于较大的物体预测性能会更好。

模型主体框架

如图所示为DETR的主体框架，由于直接采用transformer结构，模型的计算量较大，因此DETR首先采用CNN卷积神经网络进行抽取特征，此时生成的特征图一般而言降采样32倍。之后将提取的特征图送Transformer的encoder结构中进行自注意力的交互，获取特征图中每个像素和其他像素之间关系。decoder首先预设了N个查询，该N个查询首先进行自注意力机制除去模型中的冗余框，之后与来自Encoder的特征进行交互形成数量为N查询，该查询通过线性层生成模型预测的类别和相应的边界框输出，最终预测得到结果。
在实验的时候N的数据要大于一张图片上所含有所有物体的数量，在计算损失函数的时候，DETR首先采用匈牙利算法去寻找到正确的匹配方式。之后再去计算bbox和分类的损失值。由于L1L1损失函数对于不同大小的边界框产生的误差不相同，因此我们采用了GIoUGIoU损失函数去弥补这些误差。下图所示是DETR更详细的示意图：

主干网络
针对于一张通道数大小为3的图片，首先经过CNN的骨干网络，得到一个通道数为2048（该数据是我们人工设置的），长宽分别为原始图像大小132321的特征图f∈RC×H×Wf∈RC×H×W。

Transformer编码器
首先1×11×1卷积将特征图ff的通道维数从CC降低到更小的维度dd，生成一个新的特征图z0∈Rd×H×Wz0∈Rd×H×W，编码器期望一个序列作为输入，因此我们将z0z0的空间维度压缩为一个维度，从而产生d×HWd×HW的特征图。每个编码器层都有一个标准架构，由一个多头自注意力模块和一个前馈网络（FFN）组成。由于Transformer架构具有置换不变性(改变输入序列的顺序，输出的结果不发生改变)，我们用维度大小相同的位置编码来弥补这个缺点，位置编码被添加到每个注意力层的输入中。

Transformer解码器
与标准的Transformer架构中的decoder不同，DETR没有采用掩码机制，因此N个预测的边界框可以同时输出。由于解码器仍然具有置换不变性，因此我们采用可学习的位置编码作为解码器的输入嵌入，并把它称为object query。通过多个层结构，该object query最终转变为输出的边界框，通过FFN结构，生成N个坐标点和分类的对象。

上图所示是模型Transformer的主要结构，来自CNN主干网络的图像特征被送到transformer编码器中，在每个多头自注意力机制中与空间位置编码相加作为多头自注意力机制的键和查询，（生成q,k,v需要矩阵相乘，并不是一个直接的结果）。作为在解码器和编码器进行注意力机制计算之前，首先object query需要进行一个自注意力机制，该步骤是为了去除模型中的冗余框。