CVPR2021论文--深度学习GAN&&图像处理--论文笔记5

该博客介绍了UP-DETR,一种用于对象检测Transformer的无监督预训练方法。受到Transformer在NLP领域的成功启发,UP-DETR通过随机查询补丁检测任务对DETR进行预训练,解决多任务学习和多查询定位问题。预训练过程中,通过固定CNN骨干并添加补丁特征重建分支来平衡定位和分类任务,同时采用对象查询shuffle和注意力掩码实现多查询定位。这种方法使DETR能够无监督地定位输入的patch,无需额外的NMS后处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

/1 UP-DETR: Unsupervised Pre-training for Object Detection with Transformers无监督预训练检测器

paper:https://arxiv.org/pdf/2011.09094.pdf
使用Faster R-CNN,通过一种Transformer编码器-解码器架构,使得Object Detection with TransformersDETR达到了更的竞争性能。受Pre-training Transformer在自然语言处理中取得巨大成功的启发,我们提出了一种基于随机查询补丁检测random query patch detection 的无监督预训练TransformerUP-DETR针对对象检测任务。具体来说,我们从给定的图像中随机裁剪小块,然后将它们作为查询提供给解码器。对该模型进行预训练,从原始图像中检测这些查询补丁。在训练前,我们解决了两个关键问题多任务学习是否可用于多个结果的着色和多查询定位。(1)为了权衡pretext任务中的分类和定位偏好,我们冻结freeze了CNN骨干,提出了一个与补丁检测联合优化的补丁特征重建分支。(2)为了实现多查询定位,我们从单一查询补丁中引入了UP-DETR,并将其扩展为具有对象查询shuffle和注意掩码的多查询补丁。

无监督预训练模型无论是在nlp还是在cv上都取得了突破性的进展。而对于无监督预训练而言,最重要的就是设计一个合理的pretext,典型的像masked language model,instance discrimination概念。他们都通过一定的方式,从样本中无监督的构造了一个"label",从而对模型进行预训练,提高下游任务的表现。回到我们的UP-DETR,对于DETR而言,既然CNN可以是无监督预训练的,那么transformer能不能也无监督预训练一下呢。这就是motivation。

但是对于现有的pretext任务,似乎都不太适合于DETR里transformer的预训练。比如,我们类似masked language model,构造一个patch的mask到图片里。可cv都是连续像素构成语义,没法像nlp天然有个离散的token的概念,到最后还可能训成一个mask检测器。直接把MoCo那一套对比学习搬过也不太可行。我们认为主要的原因是DETR中的transformer主要是用来做空间信息上的定位而MoCo那一套主要是用来提高CNN的instance discrimination。

更重要的是,无监督预训练检测器,这听起来就很违背自觉,因为是不是object某种意义上明明就是人为定义的。所以,我们换了一个思路,提出了一个叫random query patch detection的pretext,具体而言就是从原图中,我们随机的框若干个patch下来,把这些patch输入到decoder,原图输入到encoder,然后整个任务就变成了给定patch找他们在原图中的位置。最后,对于一个无监督训好的DETR,只要输入patch,它天然就能做到如下图的无监督定位patch的功能(不需要额外的nms后处理),当然这个patch还能支持数据增强和尺度变换。从这个预训练任务的角度来说,一个patch是不是object本身没有任何先验。

但具体实现上,我们其实遇到了两个主要的问题,在paper里,我们把它们总结为:multi-task learning和multi-query localization

1)对于multi-task learning,主要是由于目标检测其实本身就带有定位和分类两个任务,这两个任务对特征其实有着不同的偏好。这其实在之前许许多多工作中都有大佬提到了,因此许多目标检测的工作通常会设计了两条不同的分支(带有额外卷积结构)分别对应于分类和回归。而detr其实完全共享了同一组特征,在实验中,我们发现如果只做patch的定位,不管分类的话,UP-DETR迁移到voc上效果会不好。这意味着定位和分类,特征偏好上确实是有冲突的。所以,为了在预训练中权衡这两个任务的偏好,我们固定了预训练好的CNN权重,新增了一个叫patch feature reconstruction的分支。motivation就是希望经过transformer的特征能保持和经过CNN后的特征一致的分类判别性。

2)对于multi-query localization,主要是说对于DETR,decoder其实有100个object query,这100个object query其实是100个网络隐式学到的空间位置偏好的embedding。我们实际上是随机搞了M个query patch,因为patch可能会在任意位置,直觉上得一个patch加到多个object query上,所以我们讨论了一下如何在预训练过程中,把这M个query patch分配到100个embedding上去。我们从最简单的single-query开始介绍,把它拓展到了支持multi-query的预训练。对于multi-query,我们认为有两个要满足的条件,第一个是 query之间框的预测是独立的,所以我们提出了一个放在decoder上的attention mask,保证query之间彼此不可见。第二个是100个object query应当尽可能避免人为先验的分组,因为下游任务中,它其实并没有显式的分组。所以,我们提出了object query shuffle的方法去达到这种分配的随机性。

解决了这俩问题,UP-DETR的预训练过程如下图所示,除此之外,下游目标检测的微调是和训DETR一模一样的:

采用随机查询补丁检测的UP-DETR预处理过程。(a)只有一个单一查询补丁,我们添加到所有对象查询。(b)对于多查询补丁,我们将每个查询补丁添加到N/M个具有对象查询shuffle和注意掩码的对象查询中。为了整洁,CNN没有在(b)的解码器中绘制。

几篇CVPR关于multi-task的论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值