2017cvpr 目标检测

作者:xiaozhi
链接:https://zhuanlan.zhihu.com/p/28088956
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

(1)Speed/accuracy trade-offs for modern convolutional object detectors

其主要考虑三种检测器(Faster RCNN,R-FCN,SSD)作为元结构,三种CNN网络(VGG,Inception,ResNet)作为特征提取器,变化其他参数如图像分辨率、proposals数量等,研究目标检测系统准确率与速度的权衡关系。

(2)YOLO9000:Better, Faster, Stronger

其为YOLO升级版,其对YOLO方法作了一些改进,Better方面考虑(Batch Normalization, High Resolution, Anchor Boxes, Dimension Clusters, Direct location prediction, Fine-Grained Features, Multi-Scale Training),Faster方面提出一个新的Darknet-19结构。除此之外,其提出一个方法在目标检测数据集与图像分类数据集上联合训练,主要构建了一个视觉内容分层树结构WordTree。

(3)A-Fast-RCNN: Hard positive generation via adversary for object detection

其主要考虑学习一个对于遮挡和形变具有不变性的目标检测器,收集各种状态目标的大数据集的数据驱动策略存在一定问题,比如遮挡和形变服从长尾理论,因此提出学习一个对抗网络(ASTN,ASDN)生成具有遮挡和形变的困难样本,通过生成器与检测器的博弈,提升目标检测器对于各种状态物体的整体目标检测性能。

(4)Feature Pyramid Networks for Object Detection

其主要考虑利用深度卷积网络固有的多尺度金字塔形层次结构来构建特征金字塔,创建了一个具有横向连接的自顶向下架构用于在所有尺度上构建高级语义特征图,FPN作为通用特征提取器表现优异,论文研究表明,尽管深度ConvNets具有强大的表达能力和对尺度变化内在的鲁棒性,使用金字塔表示来明确地解决多尺度问题仍然是重要的。

(5)RON: Reverse Connection with Objectness Prior Networks for Object Detection

其主要考虑两个问题,多尺度目标定位和负样本挖掘,并分别提出Reverse Connection使得网络能在CNN多尺度检测目标和Objectness Prior减少目标的搜索空间,最后通过多任务损失联合优化Reverse Connection、Objectness Prior和目标检测器。

(6)Accurate Single Stage Detector Using Recurrent Rolling Convolution

其提出一个新型端到端训练目标检测网络,在多尺度特征图引入Recurrent Rolling Convolution结构创建“deep in context”的分类器和回归器,其主要也是考虑“top-down/bottom-up”的特征集成。

(7)Mimicking Very Efficient Network for Object Detection

当前目标检测器都需要从预训练ImageNet分类模型初始化,其相比从零开始训练能达到更好的效果,而预训练图像分类模型对于检测任务并非最优的,其主要考虑训练高效检测器而不需要ImageNet的预训练。其研究已有的一个满足检测表现的网络如何指导其他网络的训练,即利用一个检测网络监督另一个更高效的网络并保持准确率,其提出特征mimic技术。

(8)Perceptual Generative Adversarial Networks for Small Object Detection

小目标因其低分辨率和噪声表示检测困难,现有方法主要考虑在多尺度学习所有目标的特征表示,其受限于计算复杂度。其主要考虑建立单个架构来解决小目标检测问题,该架构将小目标的表示提升到“super-resolved”,从而实现与大目标类似的特征,从而对于检测任务更加具有辨别能力。利用生成式对抗网络,其提出Perceptual GAN模型,通过缩小小目标与大目标的表示差异来改善小目标检测。


cvpr2017 目标检测

(1)Speed/accuracy trade-offs for modern convolutional object detectors

其主要考虑三种检测器(Faster RCNN,R-FCN,SSD)作为元结构,三种CNN网络(VGG,Inception,ResNet)作为特征提取器,变化其他参数如图像分辨率、proposals数量等,研究目标检测系统准确率与速度的权衡关系。

(2)YOLO9000:Better, Faster, Stronger

其为YOLO升级版,其对YOLO方法作了一些改进,Better方面考虑(Batch Normalization, High Resolution, Anchor Boxes, Dimension Clusters, Direct location prediction, Fine-Grained Features, Multi-Scale Training),Faster方面提出一个新的Darknet-19结构。除此之外,其提出一个方法在目标检测数据集与图像分类数据集上联合训练,主要构建了一个视觉内容分层树结构WordTree。

(3)A-Fast-RCNN: Hard positive generation via adversary for object detection

其主要考虑学习一个对于遮挡和形变具有不变性的目标检测器,收集各种状态目标的大数据集的数据驱动策略存在一定问题,比如遮挡和形变服从长尾理论,因此提出学习一个对抗网络(ASTN,ASDN)生成具有遮挡和形变的困难样本,通过生成器与检测器的博弈,提升目标检测器对于各种状态物体的整体目标检测性能。

(4)Feature Pyramid Networks for Object Detection

其主要考虑利用深度卷积网络固有的多尺度金字塔形层次结构来构建特征金字塔,创建了一个具有横向连接的自顶向下架构用于在所有尺度上构建高级语义特征图,FPN作为通用特征提取器表现优异,论文研究表明,尽管深度ConvNets具有强大的表达能力和对尺度变化内在的鲁棒性,使用金字塔表示来明确地解决多尺度问题仍然是重要的。

(5)RON: Reverse Connection with Objectness Prior Networks for Object Detection

其主要考虑两个问题,多尺度目标定位和负样本挖掘,并分别提出Reverse Connection使得网络能在CNN多尺度检测目标和Objectness Prior减少目标的搜索空间,最后通过多任务损失联合优化Reverse Connection、Objectness Prior和目标检测器。

(6)Accurate Single Stage Detector Using Recurrent Rolling Convolution

其提出一个新型端到端训练目标检测网络,在多尺度特征图引入Recurrent Rolling Convolution结构创建“deep in context”的分类器和回归器,其主要也是考虑“top-down/bottom-up”的特征集成。

(7)Mimicking Very Efficient Network for Object Detection

当前目标检测器都需要从预训练ImageNet分类模型初始化,其相比从零开始训练能达到更好的效果,而预训练图像分类模型对于检测任务并非最优的,其主要考虑训练高效检测器而不需要ImageNet的预训练。其研究已有的一个满足检测表现的网络如何指导其他网络的训练,即利用一个检测网络监督另一个更高效的网络并保持准确率,其提出特征mimic技术。

(8)Perceptual Generative Adversarial Networks for Small Object Detection

小目标因其低分辨率和噪声表示检测困难,现有方法主要考虑在多尺度学习所有目标的特征表示,其受限于计算复杂度。其主要考虑建立单个架构来解决小目标检测问题,该架构将小目标的表示提升到“super-resolved”,从而实现与大目标类似的特征,从而对于检测任务更加具有辨别能力。利用生成式对抗网络,其提出Perceptual GAN模型,通过缩小小目标与大目标的表示差异来改善小目标检测。

### 关于CVPR会议中目标检测的研究和论文 CVPR(Computer Vision and Pattern Recognition)作为计算机视觉领域的顶级学术会议之一,每年都会发布大量高质量的目标检测相关研究。以下是基于提供的引用内容以及目标检测领域的一般趋势所总结的内容。 #### DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection DHSNet 是一种用于显著物体检测的深度分层网络模型[^1]。它通过多尺度特征融合的方式提取图像中的显著区域,并利用层次结构来逐步细化预测结果。这种架构特别适合处理复杂背景下的目标检测任务,因为它可以有效地捕捉不同尺度上的细节信息。此外,DHSNet 的设计还考虑到了计算效率,在保持高精度的同时降低了运行成本。 #### 目标检测综述与资源整理 一篇全面覆盖目标检测技术发展的博文提供了丰富的参考资料[^2]。此文档不仅回顾了经典算法如 R-CNN 系列、YOLO 和 SSD 的发展过程,还介绍了近年来新兴的技术方向,比如注意力机制的应用、Transformer 结构引入等。对于希望深入了解 CVPR 上发表的相关工作的人来说,这是一个很好的起点。需要注意的是,虽然该链接已经停止更新,但它推荐的新地址继续跟踪最新的研究成果。 #### 雪天环境下的点云预处理方法 针对自动驾驶场景下恶劣天气条件的影响,有研究提出了改进版 DROR (Dynamic Range Outlier Removal)[^3] 过滤策略。具体来说,当面对积雪覆盖路面的情况时,传统 LiDAR 数据可能会受到干扰而产生错误标注现象。为了改善这一状况,研究人员定义了一个特定大小的空间范围——即位于自我车辆前部三米远且低于激光雷达传感器一米的位置内的矩形体素网格(尺寸为 10 × 2 × 2 米),并通过统计被移除掉的有效前景点数量来判断当前帧是否属于干净状态还是需要进一步修正的状态。最终结果显示这种方法有效减少了误分类情况的发生概率。 #### 显著对象检测适用性探讨 尽管某些先进的显著对象检测方案能够在单一突出主体存在的条件下取得优异表现,但它们未必总能适应更加复杂的实际应用场景[^4]。因此,在评估任何新型框架之前,理解其局限性和潜在假设至关重要。 ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn, FasterRCNN_ResNet50_FPN_Weights weights = FasterRCNN_ResNet50_FPN_Weights.DEFAULT model = fasterrcnn_resnet50_fpn(weights=weights) model.eval() ``` 上述代码片段展示了如何加载 PyTorch 中预先训练好的 Faster R-CNN 模型来进行实例级分割操作的一个简单例子。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值