【论文阅读】【二维目标检测】Object Detection中的Scale问题

本文探讨了Object Detection中Scale问题的挑战,介绍了FPN、SNIP、SNIPER和Trident等解决方案。FPN通过Feature Pyramid解决速度和效率问题,SNIP重新审视Image Pyramid的有效性,SNIPER优化了训练效率,而Trident网络利用不同dilation的卷积应对不同Scale物体。实验表明,这些方法各有优劣,对不同大小物体的检测效果各异。

最近看了一下Object Detection在Scale问题上的发展,本文将介绍下面四篇论文
Feature Pyramid Networks for Object Detection
An Analysis of Scale Invariance in Object Detection – SNIP
SNIPER: Efficient Multi-Scale Training
Scale-Aware Trident Networks for Object Detection

FPN:Feature Pyramid Networks for Object Detection

该文章可以说是提出了目前使用最广泛的解决Scale的方法,该方法最主要的贡献在于将解决Scale的问题的方法从Image Pyramid变成了Feature Pyramid,Feature Pyramid的优势在于计算速度快,原因在于不用在不同Scale的图片上多次做检测,共用了同一个特征金字塔。

对于这篇文章,其精髓就在于下图
在这里插入图片描述

  • a图:Image Pyramid,图像金字塔,传统CV中主要使用的方法,在不同尺度的图片中构建特征从而使得特征拥有Scale Invariance的特性。但用于神经网络中,对于(a)图,就得训练4个Detector来对4个Scale的图片进行检测。这样子网络网络大,而且计算量大。
  • b图:Single Scale,图像分类使用的模型。在该模型上做Object Detection,没有对不同Scale的物体做区分。
  • c图:使用了特征金字塔,但由于下面几层的特征提取不够充分,感受野小的问题,使用下面几层的特征做Detection效果会受限
### 数据增强技术在多模态3D目标检测中的应用 对于多模态3D目标检测,在计算机视觉领域内,数据增强方法旨在通过变换输入数据来增加模型训练的有效样本数量并提升泛化能力。具体到多模态场景下,这些方法不仅涉及图像层面的操作,还包括点云和其他传感器信号的处理。 #### 图像域的数据增强 传统的二维图像上的几何变换同样适用于基于摄像头获取的RGB图片或热成像图等: - **随机裁剪与缩放**:通过对原始图像执行不同尺度下的裁切操作,可以模拟远近变化的效果[^1]。 - **颜色抖动**:调整亮度、对比度、饱和度等因素有助于提高算法应对复杂光照条件的能力。 ```python import torchvision.transforms as transforms transform = transforms.Compose([ transforms.RandomResizedCrop(size=(224, 224), scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) ``` #### 点云域的数据增强 针对LiDAR或其他雷达设备产生的三维空间坐标集合——即点云数据,则有专门设计的技术手段用于扩充其多样性: - **旋转和平移扰动**:沿任意轴向施加微小角度偏转或是位移量级内的变动能够有效防止过拟合现象的发生。 - **噪声注入**:引入高斯分布形式的小幅波动至各维度数值上,以此检验网络结构鲁棒性的强弱程度。 ```python import numpy as np def apply_noise(points, sigma=0.01): noise = np.random.normal(scale=sigma, size=points.shape) noisy_points = points + noise return noisy_points ``` #### 跨模态联合增强策略 考虑到多种感知源之间可能存在关联性特征共享的情况,跨模态同步实施相同类型的转换动作显得尤为重要。比如当对相机视角做水平翻转变换时,也应相应地改变激光雷达所记录下来的物体朝向信息;同理,在调节色彩参数的同时保持其他物理属性不变等等。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值