spp 论文笔记

本文介绍了在深度卷积网络中引入的空间金字塔池化层,用于去除网络对固定尺寸的约束。SPP层通过池化特征产生固定长度的输出,从而避免了图像裁剪和扭曲。在训练中,结合选择性搜索产生候选框,使用SPP-net进行特征池化,输入全连接层,并利用SVM分类器进行训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

crop & warp

这里写图片描述

Spatial pyramid pooling

In this paper, we introduce a spatial pyramid pooling layer to remove the fixed-size constraint of the network.

Add a SPP layer on top of the last convolutional layer.

The SPP layer pools the features and generates fixed-length outputs, which are then fed into the fully-connected layers.

也就是,这是一种 信息聚集 的方法,避免来cropping 和 warping

  1. SPP 能够产生固定长度的输出
  2. SPP使用了多层次的特征
  3. SPP可以提取不同层次的特征

Deep Networks with Spatial Pyramid pooling

The Spatial Pyramid Pooling

前面的卷积层可以接受任意大小的图片,然后输出不同大小的特征。
使用SPP产生固定大小输出

Training

Detection Algorithm

  1. 使用selective search 产生2000个候选框
  2. 使用卷积神经网络提取特征
  3. 使用SPP-net,对于每个候选框,使用1*1 2*2 3*3 6*6 来pool the features
  4. 输入fc层
  5. 使用SVM分类器

训练过程中,正类指与ground-truth 有0.5以上重叠,负类指以下。在每个mini-batch中,大约25%为正类。
使用1e-4学习率,训练250K mini-batch
使用1e-5,训练50k

使用bounding box regression,来post-process the prediction windows。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值