
目标检测
文章平均质量分 93
头柱碳只狼
这个作者很懒,什么都没留下…
展开
-
CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection 论文笔记
前言原创 2021-03-23 20:03:15 · 433 阅读 · 0 评论 -
DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution 论文笔记
前言本文分别从宏观和微观角度对目标检测模型的backbone进行设计,进而提出DetectorRS,在宏观上,提出递归特征金字塔(Recursive Feature Pyramid,RFP),它是在FPN的基础上建立的,通过将FPN中额外的反馈连接整合到自底向上的backbone中,以构成RFP,如下图所示,图中的黑色实线箭头就是所提到的反馈连接。具体来说,这个反馈连接将detector head中直接接收梯度的特征(因该就是语义信息丰富的特征)带回到backbone的较低层级的特征层中,从而能够加原创 2020-10-09 11:24:39 · 2868 阅读 · 1 评论 -
Scale-Equalizing Pyramid Convolution for Object Detection 论文笔记
前言特征金字塔是解决多尺度目标检测的有效方式,但是在特征金字塔中,不同层级的特征中所包含的语义信息相差很大,这可能会无法得到最优的检测结果。为了解决这个问题,人们提出了很多不同的特征融合策略,目的是使不同层级的特征图的表示能力保持一致。但是这些方法基本上都是直接将分辨率相同的特征进行相加,没有很好地考虑特征金字塔的内在属性。本文认为,在尺度维度上进行卷积比直接将特征图相加要自然的多。比如在特征金字塔中,尺度相邻的特征图之间应该具有很强的关联性,但目前的特征融合方法并没有考虑这种关联性。基于此,本文提出PC原创 2020-05-28 18:08:40 · 1589 阅读 · 1 评论 -
Single-Shot Object Detection with Enriched Semantics 论文笔记
前言在SSD中,小目标由较浅的层来检测,大目标由较深的层来检测。SSD虽然能够检测不同尺度的目标,但由于浅层特征只能捕获一些基础的视觉模式,语义信息不充足,因此在检测小目标时的性能不是太好;而浅层特征的不理想也会因此影响高级特征的检测性能。为了解决上述问题,本文设计了一种新的检测网络,称为DES(Detection with Enriched Semantics),它主要包含两个分支:检测分支:就是目标检测网络中经典的检测器,以VGG16作为backbone,在不同层的特征图上进行检测;分割分支:原创 2020-05-26 11:30:02 · 397 阅读 · 0 评论 -
ScratchDet: Training Single-Shot Object Detectors from Scratch 论文笔记
前言一般在进行目标检测时,通常会使用在大型数据集上经过预训练的分类网络,然后在此基础上进行微调。这样做虽然能够得到较好的检测性能,但会存在一些限制:分类任务和检测任务对目标位置的敏感程度是不同的。分类任务偏向于平移不变性,因此会采取一些下采样操作以得到更好的性能。而对于检测任务来说,一些局部的上下文信息是非常重要的,因此在采取平移不变操作时需要十分谨慎,否则就会丢失一些局部信息。在微调时修改网络结构是很不方便的,但如果采用另一种新的网络结构,那么又要在大型数据集上重新进行预训练,耗时耗资源。如果原创 2020-05-25 11:51:05 · 491 阅读 · 0 评论 -
RON: Reverse Connection with Objectness Prior Networks for Object Detection 论文笔记
前言region-based目标检测方法:比如Fast R-CNN和Faster R-CNN,检测精度较高,并且RPN能够去除一些背景样本,但资源和时间消耗太大;region-free目标检测方法,比如SSD和YOLO,它们的检测效率很高,但检测精度却略有不足,由于没有RPN对负样本进行过滤,正负样本的比例严重失衡。而且YOLO只利用最后一层进行检测,而SSD虽然利用了较浅的层的结果,但仍无法准确地检测小目标。为了结合region-based和region-free方法的优点,本文提出RON(Re原创 2020-05-24 21:19:03 · 539 阅读 · 0 评论 -
Path Aggregation Network for Instance Segmentation 论文笔记
前言原创 2020-05-22 10:30:59 · 322 阅读 · 0 评论 -
SNIPER: Efficient Multi-Scale Training 论文笔记
前言为了进行多尺度目标检测,一些目标检测算法比如Faster R-CNN和Mask R-CNN都是在一个多尺度图像金字塔上训练的,在训练时每个尺度的图像的所有像素都参与到后续计算中,因此训练时间会很长。比如一个具有3种尺度的图像金字塔(分别是原始图像的1倍,2倍,3倍),它要处理相当于原始图像14倍的像素。然而,最近的研究SNIP表明,在进行多尺度训练时,最好忽略掉极端大小的目标的梯度。比如,在3种尺度的图像金字塔的情况下,应将较大分辨率图像上的极大目标和较小分辨率图像上的极小目标的梯度忽略掉。那么就出现原创 2020-05-19 09:15:48 · 456 阅读 · 0 评论 -
Scale-Aware Trident Networks for Object Detection 论文笔记
前言为了解决目标检测中的尺度变换问题,目前人们已经提出了如下方法:(a):图像金字塔,虽然对目标的表征能力很强,但由于每种尺度的图像都要经过一个CNN,因此效率很低;(b):特征金字塔,虽然能够生成多尺度特征,计算消耗相对于图像金字塔来说更少,但由于不同尺度的目标被分配到不同层级的特征图上,导致参数不一致;(c):就是本文提出的三叉戟网络(Trident Network)。图像金字塔和特征金字塔的共同特点是,模型对于不同尺度的目标应该有不同的感受野。基于此,本文提出Trident Netwo原创 2020-05-15 10:40:38 · 547 阅读 · 0 评论 -
DSSD : Deconvolutional Single Shot Detector 论文笔记
前言SSD使用较浅的层来预测小目标,用较深的层来预测大目标,这样虽然能够实现多尺度目标检测,但由于浅层的特征图语义信息不够强,缺乏高层的语义特征,因此SSD对小目标的检测效果很差。这样来看的话,如果我们要提升检测精度,要么使用更好的特征网络 以提取判别性更强的特征,要么增加上下文信息,也就是将高层语义特征融入浅层特征图中,这对于检测小目标是很重要的。本文最重要的贡献是,将上下文信息引入目标检测中。将SSD的基础网络从VGG换成ResNet-101,以更好地提取特征;同时利用反卷积层(deconvolut原创 2020-05-14 11:11:35 · 481 阅读 · 0 评论 -
Single-Shot Refinement Neural Network for Object Detection 论文笔记
前言本文设计了一种新的目标检测框架,称为RefineDet,它通过两个互相连接的模块来对one-stage方法进行改进,从而在保持one-stage检测效率的同时,又能提升检测精度。这两个模块分别为:anchor refinement module(ARM):识别并移除negative anchor,以减小分类器的搜索空间,同时粗略地调制anchor的位置和大小,从而为后续的回归操作提供一个好的初始化。object detectionmodule(ODM):将ARM中经过调制的anchor作为输入,原创 2020-05-13 12:22:15 · 280 阅读 · 0 评论 -
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 论文笔记
前言对卷积网络进行放大可以获得更好的精度,但这一过程还未被完全理解,目前通用的几种方式是放大卷积网络的深度、宽度和分辨率,并且通常只放大这三个维度中的一种。虽然任意放大两个或三个维度也是可行的,但这需要繁琐的人工调参,并且可能不能达到最优的精度和效率。本文研究了放大卷积网络这一过程,关注了一个核心问题:是否存在一个原则性的方法来放大卷积网络,从而能够达到更好的精度和效率? 本文的实验表明平衡网络的深度、宽度和分辨率这三个维度是非常重要的,并且仅用一组常量比率分别对每个维度进行缩放,就能实现这样的平衡。基原创 2020-05-12 15:36:10 · 387 阅读 · 0 评论 -
Deep Feature Pyramid Reconfiguration for Object Detection 论文笔记
前言用金字塔形式的多尺度表示来解决目标检测中的多尺度问题是一种常用的方法,SSD和FPN都是这种金字塔形式的特征表示。但SSD中的bottom-up通路仅能在深层中学到更强的语义特征,而浅层中的语义特征很难捕获,因此SSD在检测小目标时比较无力。FPN虽然通过横向连接使得每个层级的特征图都包含很强的语义特征,但它实际上等价于特征层级的线性结合,从而很难捕获高度非线性的信息,以至于不能很好的应对更加复杂的情况。本文以一种高度非线性的方式,将特征金字塔的构造过程重塑为特征的重构过程。具体来说就是,本文在构造原创 2020-05-11 21:08:28 · 328 阅读 · 0 评论 -
Efficient Featurized Image Pyramid Network for Single Shot Detector 论文笔记
前言目前人们已经提出很多方法以解决目标检测中的尺度变化问题,如下图所示:(a):特征化的图像金字塔,通过在不同尺度的图像上应用CNN得到不同尺度的特征图,由于每个尺度的图像都要经过一个深度CNN来提取特定尺度的特征图,因此速度很慢。(b):FPN,虽然能够得到融合的多尺度特征,但并不适合非常小和非常大的目标。对于一个非常小的目标来说,有可能经过很大倍数的上采样之后,依然不能达到网络所要求的分辨率(通常是224×224224 \times 224224×224),并且FPN生成的高级语义特征对于检测原创 2020-05-10 21:56:33 · 993 阅读 · 2 评论 -
Bag of Freebies for Training Object Detection Neural Networks 论文笔记
前言本文总结了能够增强目标检测网络性能的一些有效的方法,也就是训练过程使用到的一些tricks,这些方法在inference时并不会引入额外的计算消耗。本文的主要贡献如下:系统地评估了不同目标检测流程中应用的多种训练tricks,为未来的研究提供了很有价值的参考;借鉴分类问题中的mixup技术,提出了一种适合于目标检测网络的视觉连贯的image mixup方法,实验证明该方法能够提升模型的...原创 2020-05-08 15:04:15 · 296 阅读 · 0 评论 -
An Analysis of Scale Invariance in Object Detection – SNIP 论文笔记
前言首先思考这样一个问题:为什么目标检测与图像分类相比要更加困难呢?作者认为,这是由于目标的尺度变化,尤其当检测非常小的目标时很难达到理想的效果。在ImageNet和COCO中,目标的中等尺度分别为0.554和0.106,也就是说,COCO数据集中的大多数目标的尺度都小于图像区域的1%。更糟的是,在COCO中最小和最大的10%目标的尺度分别为0.024和0.472,这几乎是20倍的尺度变化!如下...原创 2020-05-07 13:37:14 · 290 阅读 · 0 评论 -
Libra R-CNN: Towards Balanced Learning for Object Detection 论文笔记
前言作者认为,在目前的目标检测器的训练过程中存在三个方面的不平衡问题,如下图所示:(a)样本层次的不平衡: 在训练目标检测器时,hard样本是最有价值的,它能够有效提升检测器的性能。但是,随机采样机制会导致样本中大多数都是easy样本。OHEM虽然能够选出更多hard样本,但这个方法对噪声不鲁棒,并且计算量较大。Focal loss虽然在single-stage检测器中很有效,但对于two...原创 2020-05-06 13:49:48 · 460 阅读 · 0 评论 -
Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning 论文笔记
前言本文提出了一种实现小样本目标检测的通用方法,基于Faster R-CNN生成的RoI feature进行元学习。目前的元学习方法在小样本识别方面非常有用,这主要是因为只需识别单个目标。但如果一张图像中包含多个目标,并且还混合的有背景信息,那么这些元学习方法就不再有用了,因为它不能将这些复杂的信息分开。本文发现,可以通过Faster R-CNN产生的RoI feature对这些混合的目标进行预...原创 2020-05-05 20:51:39 · 5440 阅读 · 1 评论 -
LSTD: A Low-Shot Transfer Detector for Object Detection 论文笔记
前言基于深度学习的目标检测器能够取得成功,很大一部分依赖于完整标注的大规模数据,但实际上,完整标注的数据集是有限的。为了解决这个问题,一种方法是进行迁移学习,源域(source-domain) 中的知识可以作为一种有效的监督,进而泛化到目标域(target-domain) 的学习过程中。但是,小样本目标检测中的迁移学习依然存在以下问题:当目标检测的数据集很小时,使用一般的迁移策略是不太合适的...原创 2020-05-01 11:55:47 · 804 阅读 · 0 评论 -
Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty 论文笔记
前言目前的大多数single-stage目标检测器虽然在检测精度上已经有所提升,但检测的实时性依然不是很好。此外,虽然通过检测得到了目标的bbox坐标,但得到的这个bbox的不确定性是未知的。因此,这些目标检测器并不能避免错误定位(FP),因为它们输出的bbox的结果并不包含不确定性信息,也就是说并不清楚这个bbox是不是正确的。一般来说,FP指对于该目标的GT来说是不准确的检测结果,TP则是准...原创 2020-04-30 11:34:21 · 391 阅读 · 0 评论 -
Side-Aware Boundary Localization for More Precise Object Detection 论文笔记
前言目前的目标检测器依赖bbox回归来对目标进行定位,它通过预测几个偏移值来确定目标的位置。如果anchor与目标之间存在很大的位移,那么精确定位就变得非常困难。从而限制了整体的检测性能。本文提出了一种新方法用于目标的精确定位,作者观察到当为目标标注bbox时,使box的每条边与目标边界对齐比移动整个box更加的简便。由此,本文提出侧边感知边界定位(Side-Aware Boundary Lo...原创 2020-04-29 13:55:42 · 1082 阅读 · 1 评论 -
IoU-uniform R-CNN: Breaking Through the Limitations of RPN 论文笔记
前言RPN是two-stage目标检测器中的一个核心部分,它用于生成一系列proposal,并且能够过滤大部分负样本,从而避免正负样本间的极端不平衡。不过目前的RPN仍存在一些缺点:如下图所示,随着IoU的增大,RoI的数量急剧减少,造成IoU分布不平衡,训练样本的分布会偏向较低的IoU;而当IoU较大时,正样本的数量明显不足。这会妨碍检测器的优化,尤其是在IoU较高时。如下图所示...原创 2020-04-27 21:33:45 · 959 阅读 · 0 评论 -
Learning from Noisy Anchors for One-stage Object Detection 论文笔记
前言在基于anchor的目标检测器中,通常是根据阈值来选择正负样本——anchor与gt的IoU如果高于阈值,那么就是正样本,否则就是负样本。由于一些anchor与gt是部分重叠的,也即该anchor只包含目标的部分信息,因此基于这样的IoU来确定anchor是正样本还是负样本是不太合理的。看下图,蓝框是正样本,红框是负样本,绿框是gt。长颈鹿的头由于IoU过低,因此被作为负样本,但它对于分类与...原创 2020-04-26 15:59:54 · 1468 阅读 · 1 评论 -
Multiple Anchor Learning for Visual Object Detection 论文笔记
前言在基于anchor的目标检测方法中,检测器利用目标与anchor之间的IoU作为分配anchor的标准,每个被分配的anchor独立地监督网络学习,以进行分类与定位。也就是说,分类与定位之间是没有交互的,如果一个检测结果的定位精度较高但分类置信度较低,那么它有可能在NMS操作中被过滤掉。为了解决这个问题,本文提出Multiple Anchor Learning(MAL),这是一种可以自动学...原创 2020-04-24 17:12:53 · 3490 阅读 · 1 评论 -
CBNet: A Novel Composite Backbone Network Architecture for Object Detection 论文笔记
前言目前大多数目标检测器的backbone通常是被设计用来进行图像分类的,在ImageNet上经过预训练之后,再经过微调以进行检测。那么问题就来了,直接采用这种backbone提取图像特征以进行目标检测真的能达到最优性能吗?但是如果设计一种新的backbone并在ImageNet上对其进行预训练,要达到优秀的检测性能所付出的代价又会是非常大的。因此本文提出了一种巧妙的思想,组合现有的backbo...原创 2020-04-22 19:14:26 · 741 阅读 · 1 评论 -
IPG-Net: Image Pyramid Guidance Network for Object Detection论文笔记
前言FPN虽然通过top-down特征融合为浅层特征提供了充足的语义信息,但深层特征可能会缺少位置或空间信息,而空间信息的损失会导致特征不对齐,即anchor和卷积特征之间存在一些偏移,也就是说anchor在经历多次卷积之后,在深层特征上的位置可能和初始位置不一致。除此之外,在较深的卷积层中很容易丢失小目标。由此,本文提出了一种新的网络结构,称为图像金字塔引导网络(Image Pyramid ...原创 2020-04-22 11:03:57 · 1082 阅读 · 3 评论 -
AugFPN: Improving Multi-scale Feature Learning for Object Detection 论文笔记
前言首先来说一下FPN的一些设计缺陷,如下图所示,FPN可以分为三个阶段:(1)特征融合前;(2)top-down特征融合;(3)特征融合后。每个阶段都存在一处设计缺陷:不同层级的特征之间存在语义差异。在进行特征融合前,会先将不同层级的特征经过一个1×11 \times 11×1的卷积层以降低通道数,但这一过程未考虑这些特征之间存在的巨大的语义差异。如果直接将这些特征进行融合,由于它们的语...原创 2020-04-21 14:44:48 · 1422 阅读 · 0 评论 -
Learning Rich Features at High-Speed for Single-Shot Object Detection 论文笔记
前言目前的single-stage目标检测器依然存在两个问题:在检测小目标时,性能不是很好。比如RetinaNet在检测COCO上的大目标时能达到47的AP,而小目标的AP只有14;大多数single-stage检测器采用在ImageNet上经过预训练的backbone来进行分类任务,然后利用目标检测数据集进行微调以实现快速收敛。但是分类任务和定位任务之间仍存在较大差异,尤其是在IoU阈值...原创 2020-04-20 15:14:40 · 408 阅读 · 0 评论 -
Learning Spatial Fusion for Single-Shot Object Detection 论文笔记
前言特征金字塔(比如FPN)常被用来处理目标检测时的多尺度问题,但它有一个缺点,就是不同尺度之间的不一致性,尤其体现在single-shot检测器中。具体来说就是,当使用特征金字塔检测目标时,通常使用较上层的特征图来处理大目标,而用较底层的特征图来处理小目标,如果一个目标被分配给某一层级并且被看作是正样本,那么其它层级中和该目标位置相同的区域将被看作是背景。因此,如果一个图像中同时包含大目标和小...原创 2020-04-19 09:49:55 · 369 阅读 · 0 评论 -
EfficientDet: Scalable and Efficient Object Detection 论文笔记
前言原创 2020-04-17 15:01:25 · 368 阅读 · 0 评论 -
(IoU-Net)Acquisition of Localization Confidence for Accurate Object Detection 论文笔记
前言原创 2020-04-11 15:12:38 · 380 阅读 · 0 评论 -
IoU-aware Single-stage Object Detector for Accurate Localization 论文笔记
前言一般来说,multi-stage目标检测器的AP较好,而检测效率较低,而single-stage目标检测器虽然检测效率较高,但AP不如multi-stage检测器。本文就是希望在保持检测效率的同时,提高single-stage检测器的AP,尤其是定位精度。论文证明了single-stage检测器中分类分数和定位精度之间的低相关性,导致了模型的性能尤其是定位精度较低。而过低的相关性主要是因为分...原创 2020-04-06 12:01:57 · 1015 阅读 · 0 评论 -
Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection 论文笔记
前言弱监督目标检测(WSOD)在训练时不需要详尽的box标注,但它要求image-level标签必须是准确的,也即在图像中至少有一个目标的标签是这个类,但是这些image-level标签依然需要人为实现。那么有没有更加自然的监督方式呢?答案是有的!比如当用户向网上上传图像时,通常会带有一些自然语言描述,或者一些视频的子标题。这些标注都是自然而然产生的,即人们是自愿提供的,因此这些标注与image...原创 2020-04-05 14:25:38 · 537 阅读 · 0 评论 -
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 论文笔记
前言小样本目标检测,即给定一个新类的支持集(support set),该支持集中只有少量的样本,需要在测试集(test set)中检测出所有属于该新类的前景目标。如下图所示,左上角和右上角分别是两个不同类别的支持集样本,自行车和头盔,在下面的查询集(query set)图像中检测出所有属于自行车和头盔这两个类的目标。在目前一些小样本目标检测算法中,bbox可能会漏检一些目标,或者在背景中生成...原创 2020-04-03 11:34:05 · 753 阅读 · 0 评论 -
Bridging the Gap Between Anchor-based and Anchor-free Detection 论文笔记
前言近几年的目标检测方法主要可以分为anchor-based和anchor-free,anchor-based可以进一步分为one-stage和two-stage,不论哪一种,都要在图像上预先设定大量的anchor,然后预测anchor的类别并修正anchor的坐标,以得到最终的检测结果。随着FPN和Focal Loss的提出,anchor-free的方法越来越受到人们的关注。anchor-f...原创 2020-04-01 15:52:51 · 250 阅读 · 0 评论 -
Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization 论文笔记
前言目前的目标检测器会出现以下问题:NMS操作未能移除重复的检测结果。如下图所示,左:两个关于领带的检测结果,置信度很高,但IoU很低;右:对于图中的目标,检测结果是马和斑马,发生了重叠。一些局部的判断未能充分利用上下文信息,也就是说,一些目标看起来与某个类别很相似,但如果代入目标所处的上下文环境中,会发现该目标完全不可能属于这个类别。如下图所示,左:在钟表里检测出香蕉和雨伞;右:在树的...原创 2020-03-14 17:10:55 · 2008 阅读 · 2 评论 -
Object Instance Mining for Weakly Supervised Object Detection 论文笔记
前言大多数弱监督目标检测(WSOD)采用的框架是将多实例学习(MIL)和CNN结合起来,这种框架通常会将特定于某个类别的具有最高置信度的proposal挖掘出来,以训练基于CNN的分类器,但并不会考虑图像中的目标实例的数量。如果图像中有多个目标实例属于同一类别,那么具有较低置信度的目标实例可能会被认为是背景。而被选择的目标实例的尺度和外观变化都是有限的,因此仅用这些目标实例是无法训练出一个具有强...原创 2020-03-13 16:59:54 · 649 阅读 · 0 评论 -
High-Resolution Net(HRNet) 论文笔记
前言原创 2020-03-12 21:21:21 · 1807 阅读 · 0 评论 -
soft anchor-point object detection 论文笔记
前言目前的anchor-free检测器可以分为两种类型:anchor-point检测器和key-point检测器。anchor-point:比如DenseBox,UnitBox,FSAF,FCOS等。anchor points其实就是特征金字塔中每个特征图上的像素点,每个像素点所在的位置都有与它相对应的特征,也就是说将这些像素点当作是anchor box。然后根据这些points和这些poi...原创 2020-03-09 19:12:13 · 478 阅读 · 0 评论 -
Reasoning-RCNN 论文笔记
前言大规模目标检测指的是识别与定位图像中大量的属于不同类别的目标,类别之间的不平衡(有的类别的样本很少)、遮挡、模糊和小目标问题是大规模目标检测面临的主要挑战。当前的很多目标检测方法都是对每个候选区域独立地进行检测,因此需要高质量的特征表示,以及每个类别的充足的标记数据,它们并没有考虑目标之间的语义依赖关系,因此缺乏在常识的帮助下进行推理的能力。上图说明了全局知识推理的一个例子。当一个人看到...原创 2020-03-06 12:15:29 · 2644 阅读 · 6 评论