DETR整体模型结构解析

最新推荐文章于 2025-04-08 16:11:32 发布

Ziko_AI

最新推荐文章于 2025-04-08 16:11:32 发布

阅读量1.2k

点赞数 23

文章标签： python DETR 目标检测 transformer object detection

本文链接：https://blog.youkuaiyun.com/weixin_43912994/article/details/139302553

版权

DETR流程

Backbone用卷积神经网络抽特征。最后通过一层1*1卷积转化到d_model维度fm（B,d_model,HW）。
position embedding建立跟fm维度相同的位置编码(B，d_model,HW）。
Transformer Encoder,V为fm，K，Q为fm+position embedding。因为V代表的是图像特征。所以不添加位置编码
Transformer Decoder。生成一个固定大小（query_num）的object query（B,q_num,d_model）比如100个预测框。Decoder输入tgt与object query形状相同。代码中为torch.zero()。第一层selfattention K，V为tgt+query,Q为tgt。第二层Q为上一层输出+query。V为encoder输出，K为encoder输出+position。这里V仍然代表图像特征所以不添加位置编码
用输出的100个object query框和ground truth框做一个匹配，然后在一一配对好的框中去计算目标检测的loss（分类loss与回归loss（L1+IOU））
二分图匹配与匈牙利算法

DETR 预测了一组固定大小的 N = 100 个边界框

将 ground-truth 也扩展成 N = 100 个检测框

使用一个额外的特殊类标签 ϕ 来表示在未检测到任何对象，或者认为是背景类别。

这样预测和真实都是两个100 个元素的集合了

采用匈牙利算法进行二分图匹配，对预测集合和真实集合的元素进行一一对应，使得匹配损失最小。
推理过程不需要二分图匹配，只需要取最大得分框即可

代码详细参考：

transformer 在 CV 中的应用(二) DETR 目标检测网络 -

网络结构

参数说明：B：batchsize大小，C通道数，H，W：CNN输出特征图的高宽。d_model设定的特征维度大小如512。
Q,K,V：自注意力矩阵。l_q：Q矩阵的长度，l_kv：K，V矩阵的长度。KV矩阵的长度必须相同，Q矩阵长度可以跟KV矩阵长度不同
Q矩阵维度:(B，l_q，d_model)
K矩阵维度：(B,l_kv,d_model)
V矩阵维度：（B,l_kv,d_model）
object_query维度(B，q_num,d_model)

Backbone:

img→CNNbackbone→fm特征图(B,C,H,W) → fm特征图输入到transformer中时要再经过一层卷积将通道数转化成d_ model。C→d_model.

position embedding(B,d_model,H*W)。backbone通过CNN提取图像特征，然后通过特征图生成尺度对应的位置编码。

position embedding：

位置编码官方实现了两种，一种是固定位置编码，另一种是自学习位置编码，这里就介绍固定位置编码。

位置编码要考虑 x, y 两个方向，图像中任意一个点 (h, w) 有一个位置，这个位置编码长度为 256 ，前 128 维代表 h 的位置编码，后 128 维代表 w 的位置编码，把这两个 128 维的向量拼接起来就得到一个 256 维的向量，它代表 (h, w) 的位置编码。位置编码的计算公式如下图所示

在这里插入图片描述

Transformer
DETRtransformer结构图
在这里插入图片描述

接受CNN提取的特征(B,d_model,HW)，位置编码(B,d_model,HW)，querys(B,query_num,d_model)

encoder：q,k添加位置编码。v代表图像本身特征，不添加位置编码。multi_head_attention跟FFN后都带了两个残差连接。

# post代表norm放在后面
def forward_post(self,
                 src,
                 src_mask: Optiona

最低0.47元/天解锁文章