第二十二章原理篇：UP-DETR

最新推荐文章于 2025-09-18 10:16:51 发布

原创

最新推荐文章于 2025-09-18 10:16:51 发布 · 802 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #python #目标检测

文章探讨了如何使用自监督学习对DETR中的Transformer进行预训练，通过多查询patch和特征重构损失提升模型性能。

最近一直在忙各种各样的面试，顺便重新刷了一遍西瓜书。
感觉自己快八股成精了，但是一到写代码的环节就拉跨，人真是麻了。
许愿搬家前可以拿到offer！

参考教程：
https://arxiv.org/pdf/2011.09094.pdf
https://zhuanlan.zhihu.com/p/398940573
https://github.com/dddzg/up-detr
https://bbs.huaweicloud.com/blogs/181241

Unsupervised Pre-training for Detection Transformers

背景
- 自监督学习
- UP-DETR
方法
代码实现
- UP-DETR
- - __init__()
  - forward()
- backbone
- dataset
- loss

背景

自监督学习

首先要来了解一下自监督学习的概念。

自监督学习是属于无监督学习的一种，具体来说它使用的是无标签数据，并通过挖掘自身的特征作为监督信号，实现一个自己向自己学习的效果。其中也涉及到一些术语。

pretext task：前置任务，又称为代理任务。是指为了达到某种任务目的而设置的间接任务，任务中的监督信号是基于数据本身生成的。
pseudo label：伪标签，是指在pretext task中生成的数据标签。
downstream task：下游任务。一般用pretext task做预训练，downstream task是指预训练好的模型的迁移任务，也就是我们常说的fine-tune。

Unsupervised pre-training models always follow two steps: pretraining on a large-scale dataset with the pretext task and finetuning the parameters on downstream tasks.

常用的pretext task可以分成四类。【这里可能写的不准，因为分类方法多种多样】

Generation-based：基于生成的方法。比如说AE自编码机，它的输出对象就是输入本身，在重建输入的过程中学习对输入的表征。
Context-based：基于上下文信息的方法。比如说我们之前提到的word2vec，它通过周围的词来预测中心词/通过中心词来预测周围词。
Contrastive based：基于对比学习的方法。它是通过比较两个事物的相似性来进行编码的，通过人为构建正负样本并评估样本间距离，在实现自监督学习的效果。
Cross model-based：基于多模态的数据的方法，比如说使用图像和它对应的文字标注作为输入，看这两个是否匹配。

总的来说，自监督学习就是使用数据本身构建一个约束，一个目标，在达成这个目标的过程中促使网络学习图像的表征。这个目标不能设计的太简单，不然就达不到目的，也不能设计的太难，否则训练就无法收敛。

UP-DETR

DETR目标检测模型使用transformer的encoder-decoder的结构，在目标检测任务上取得非常好的效果，它把目标检测当成一个集合预测的问题来做，不需要手动进行一些样本选择，也省去了复杂的后处理的过程。然而它也有一些transformer的缺点，比如说需要的训练数据数量多，再比如说训练很慢。在数据量不足的情况下，DETR表现得就有点不尽人意。

作者认为，在DETR总，所使用的backbone是已经经过了预训练的，并且能够从图片中提取出一个还不错的视觉表达，但是其中的transforer模块是还没有经过预训练的。因此作者们提出了一个对DETR中transformer进行预训练的方法，命名为random query patch detection。这是一个专门针对transformer模型的pretext task。

为什么常见的预训练方法不能应用到transformer上呢？作者给出了两个原因。

不同的架构。通常的前置任务都是设计来进行backbone的预训练，让backbone能够完成图像特征的提取。但是DETR不仅有backbone，还包括了一个transformer。
不同的特征倾向。DETR中的transformer关注于空间定位的学习。而目前常用的前置任务都关注于特征的判别，而不是空间定位。

因此，这篇论文的核心目的就是为DETR中的transformer构建一个用于预训练的空间定位任务：从给定图像中随机crop多个patch，并预训练transformer对这些patch进行定位。这个想法比较简单，但是实际操作中还是出现了一些问题，这些问题也被作者成功解决了。
作者总结了两个重要的问题：

Multi-task learning：目标检测本身是一个组合型的任务，既包括了分类也包括了定位。而这两个任务图像的关注其实是不同的，分类任务更关注图像的纹理材质等，而检测任务更关注图像的边界。为防止patch detection的任务破坏已经学习的分类特征，作者引入了frozen pre-training backbone的方法和patch feature reconstruction来维持transformer的特征判别能力。
Multi-query localization：多框定位问题。不同的queries关注不同的位置和框的大小。‘’对object query进行了显式的分组，以此适配多框的定位。使得预训练的任务和下游的目标检测更加的贴合。‘’ 【原论文的这一部分写的有点模糊，所以先引用一下作者的解释。】

方法

UP-DETR包括了预训练和微调两个步骤，首先在大规模数据上进行无监督预训练，然后在标记好的数据上进行微调。

预训练

在这里插入图片描述
先来看一下论文中给出的预训练原理图。分成了single-query patch和multi-query patch两种。两者的encoder部分没有什么区别，都是原始图像经过CNN获得特征后加上一个position encoding然后送入到transformer的encoder中去。区别主要体现在decoder的部分。

左半边是single-query的例子。其中N是object query的数量，M是裁剪出来的patch的数量。这个patch同样送入预训练好的backbone中得到一个特征，后面再接上一个global average pooling进行降维。降维得到的query，会和object query叠加在一起，作为decoder的输入。

右半边是multi-query patch的例子，对于N个object query和M个patch，需要把每个patch加到 $N\div M$ 个queries中去。相比于单patch， multi patch还增加了一个额外的注意力mask。

此外，除了分类和定位的loss外，预训练过程中还增加了一个新的loss，也就是reconstruction loss。

Encoder

给定一个输入图像，backbone提取它的视觉表达，得到一个大小为 $C\times H\times W$ 的输出。每个图象被当作一个长度为 $H\times W$ 的token。然后加上一个position encoding就可以送到多层encoder中去了。

Decoder

在预训练阶段，随即从输入图像中裁剪patch作为query，并记录对应的坐标和宽高作为ground truth。因此预训练的过程可以作为一个非监督的实现。对于随即裁剪的query patch，CNN的backbone会得到它的特征，这个特征和object queries组合在一起，再传入decoder。decoder被训练来预测这个patch在输入图像中对应的位置。

Multi-query Patches

每个图片在通常不止一个物体，而是多个。为了保证预训练和微调过程的一致性，UP-DETR也需要构建一个多multi-query patch的检测。假设这里有M个patch和N个object queries，作者把N个object queries分成M组，每个patch query会被分到 $N\div M$ 个object queries中去。

Patch feature reconstruction

预训练任务主要关注的是定位而不是分类，在预训练中虽然也有二分类的分类头，但是这个分类和图像的类别没有任何关系。所以作者提出了一个patch feature reconstruction的loss，在定位的预训练中尽可能的保留分类特征。

Attention mask

所有的patch都是随机裁剪得到的，因此他们彼此之间是独立的，也就说是第一个patch得到的box和第二个是没啥关系的。为了满足patch query的独立性，使用一个attention mask来控制object patch之间的交互。
从这个图中来说，这个attention mask的作用是简单的表示了两个object query是否来自同一个组，是否对应的是同一个patch query。
在这里插入图片描述
这个attention mask在计算中会被加到decoder的自注意力中去 $softmax(QK^T/\sqrt(d_k)+X)V$ 。
X的计算方式，具体来说，如果来此同一个组，则为0，否则为-float(‘inf’)