CVPR2019目标检测论文汇总

本文精选CVPR2019目标检测领域的六篇重要论文,包括不确定性的边界框回归、从头训练SSD、自引导锚点区域提议、通用交并比、特征选择无锚模块及AP损失函数的应用,详细解读了每项工作的创新点及实验结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

整理一下CVPR2019目标检测的一些文章解读,目前比较忙,没时间细看

CVPR2019论文及code汇总

https://github.com/extreme-assistant/cvpr2019

1、《Bounding Box Regression with Uncertainty for Accurate Object Detection》

对目标检测中不确定性边界框问题,在这篇论文中提出了一中新的边界框回归损失算法,提高了各种检测体系的目标定位精度。

论文摘要:

诸如 MS-COCO 在内大规模目标检测数据集,都旨在尽可能清楚地定义目标真实的边界框标注。然而,事实上在标注边界框时经常会产生歧义。因此,为了解决这个问题,本文提出了一种新的边界框回归损失 (bounding box regression loss) 算法,用于学习边界框变换和局部方差。这种损失算法提高了各种检测体系的目标定位精度,且几乎不需要额外的计算成本。此外,该算法的另一大优势在于它能够学习目标的定位方差,这允许模型在非最大抑制 (NMS) 计算阶段合并相邻的边界框,以便进一步改善了定位的性能。在 MS-COCO 数据集上,该损失算法能够将 Faster R-CNN (VGG-16) 的平均精度 AP 从23.6%提高到29.1%。更重要的是,对于 Mask R-CNN (ResNet-50-FPN),该算法将 AP 和 AP 90 分别提高了1.8%和6.2%,这明显优于当前最先进的边界框细化 (bounding box refinement) 方法。

2.《ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch》

CVPR 2019 | 京东AI研究院提出 ScratchDet:随机初始化训练SSD目标检测器

目标检测算法ScratchDet的深入思考

3. 《Region Proposal by Guided Anchoring》

CVPR2019 | Guided Anchoring: 物体检测器也能自己学 Anchor

物体检测领域论文"Region Proposal by Guided Anchoring"解读,这篇 paper 的方法用在了 COCO Challenge 2018 检测任务的冠军方法中,在极高的 baseline 上涨了1个点。

4.《Generalized Intersection over Union》

CVPR2019 | 目标检测新文:Generalized Intersection over Union

CVPR2019 | 斯坦福学者提出GIoU,目标检测任务的新Loss

本文提出用IoU这个直接的指标来指导回归任务的学习,用直接指标IoU作为损失函数的缺陷性,提出新的metric来代替L1、L2损失函数,从而提升regression效果

5.《Feature Selective Anchor-Free Module for Single-Shot Object Detection》

CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法

本文介绍了来自CMU的CVPR2019论文,提出了一个非常优秀的Single-Shot目标检测算法:FSAF。

6.《Towards Accurate One-Stage Object Detection with AP-Loss》

利用AP损失函数实现精确的一阶目标检测

一阶的目标检测器通常是通过同时优化分类损失函数和定位损失函数来训练。而由于存在大量的锚框,分类损失函数的效果会严重受限于前景-背景类的不平衡。

本文通过提出一种新的训练框架来解决这个问题。我们使用排序任务替换一阶目标检测器中的分类任务,并使用排序问题的中的评价指标AP来作为损失函数。

由于其非连续和非凸,AP损失函数不能直接通过梯度下降优化。为此,我们提出了一种新颖的优化算法,它将感知机学习中的误差驱动更新方案和深度网络中的反向传播算法结合在一起。我们从理论上和经验上验证了提出的算法的良好收敛性。

实验结果表明,在不改变网络架构的情况下,在各种数据集和现有最出色的一阶目标检测器上,AP损失函数的性能相比不同类别的分类损失函数有着显著提高。

Add

1. 《RePr: Improved Training of Convolutional Filters》

CVPR2019 | 专门为卷积神经网络设计的训练方法:RePr

本文提出了一种针对卷积神经网络的训练方法RePr,非常简单有效,在cifar、ImageNet、VQA、object detection上涨点很多,ablation study做的非常充分。

 

### CVPR 2024 目标检测论文总结 #### 半监督3D物体检测进展 在半监督学习领域,一项重要研究探讨了从RGB-D数据中迁移可训练的3D对象检测方法。该研究表明,在仅有少量标注样本的情况下,通过利用大量未标记的数据可以显著提高模型性能[^1]。 ```python import torch.nn as nn class SemiSupervisedDetector(nn.Module): def __init__(self, backbone, head): super(SemiSupervisedDetector, self).__init__() self.backbone = backbone self.head = head def forward(self, x_labeled, x_unlabeled=None): if x_unlabeled is not None: # 使用伪标签机制处理无标签数据 pass features = self.backbone(x_labeled) predictions = self.head(features) return predictions ``` #### 实时轻量级网络设计 另一项值得关注的研究提出了名为PVANet的新型架构,旨在实现高效的目标检测任务。此网络结构不仅减少了计算资源消耗,还能够在保持高精度的同时实现实时推理速度[^2]。 ```python def pva_module(input_channels, output_channels): conv1 = nn.Conv2d(input_channels, output_channels//4, kernel_size=1) dwconv = nn.Conv2d(output_channels//4, output_channels//4, groups=output_channels//4, kernel_size=3, padding=1) conv2 = nn.Conv2d(output_channels//4, output_channels, kernel_size=1) shortcut = nn.Sequential() return nn.Sequential( conv1, nn.ReLU(), dwconv, nn.ReLU(), conv2, nn.ReLU(), shortcut ) ``` #### 多模态大语言模型应用于视觉理解 最新研究成果展示了如何增强大型语言模型(LLMs)对于复杂图像的理解能力。具体来说,通过引入特定于视觉的任务指导,使得这些模型能够更好地解析和回应基于图片的信息查询[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值