HOG学习笔记

HOG(histogram of oriented gradients

方向梯度直方图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a9Dvq2uL-1609835564264)(HOG.assets/v2-251d6a16261de28b195a6c8503bfb6e7_1440w.jpg)]

一、简介

论文链接:Histogram of oriented gradients for human detection

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QDgRjB13-1609835564266)(HOG.assets/v2-c37cf0789b9cf790d4b4afe514f9c906_720w.jpg)]

这是HOG+SVM的工作流程。首先对输入的图片进行预处理,然后计算像素点的梯度值,然后形成梯度直方图,然后对blocks进行normalize,最后收集到HOG feature(其实是一行高维的vector)放到SVM里进行监督学习,从而实现行人的检测。

二、 HOG实例讲解(以下所有的系统参数都是按照上述论文实验得出的最佳结果确定的)

  1. 图像预处理

包括伽马校正和灰度化。这是可选的步骤,因为实验证明做不做影响不大。伽马校正是减少光度对实验的影响。灰度化是将彩色图片变成灰度图。其实彩色图片也可以直接处理。不过是分别对三通道的颜色值进行梯度计算,最后选择梯度最大的那个。为简单起见,假设输入为灰度图,同时大小是64*128(这个大小是上面论文的大小,也可以自己确定不同的大小,但是实验效果就不能得到保证)。

  1. 计算每一个像素点的梯度值,得到梯度图(规模和原图大小一样)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jgk0QqIU-1609835564267)(HOG.assets/v2-1d866ca3e02c8288b17c9b714f71f5f0_720w.jpg)]

对于像素点A,要计算水平梯度和竖直梯度,如上图,水平梯度 g x = 30 − 20 = 10 g_x=30-20=10 gx=3020=10,竖直梯度 g y = 64 − 32 = 32 g_y=64-32=32 gy=6432=32

那么总的梯度强度值 g g g和梯度方向 θ \theta θ将按照以下公式计算:
g = g x 2 + g y 2 g=\sqrt{g^2_x+g^2_y} g=gx2+gy2

θ = a r c t a n g x g y \theta = arctan \frac{g_x}{g_y} θ=arctangygx

梯度方向将会取绝对值,因此梯度方向的范围是0-180度。取绝对值的原因是这样效果更好。

  1. 计算梯度直方图

按照第二步的计算,每一个像素点都会有两个值:梯度强度/梯度方向。

现在就计算梯度直方图,这是一个关键步骤也是HOG能够work的原因。

梯度直方图是在一个88的cell里面计算的。那么在88的cell里面就会有882=128个值,2是包括了梯度强度和梯度方向。通过统计形成梯度直方图,128个值将会变成9个值,大大降低了计算量,同时又对光照等环境变化更加地robust。

首先,我将0-180度分成9个bins,分别是0,20,40…160。然后统计每一个像素点所在的bin。请看下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7yyC7DlQ-1609835564268)(HOG.assets/v2-8a48667c4af86625067fa656e27ac9e8_1440w.jpg)]

左上图是88的梯度方向值,右上图是88的梯度强度值,下图是9个bins。

先看两个蓝色圈圈。因为蓝圈的方向是80度,大小是2,所以该点就投给80这个bin;

再看两个红色圈圈。因为红色圈圈的方向是10,大小是4,因为10距离0点为10,距离20点为也为10,那么有一半的大小是投给0这个bin,还有一半的大小(即是2)投给20这个bin。

那么统计完64个点的投票数以后,每个bin就会得到一个数值,可以得到一个直方图,在计算机里面就是一个大小为9的数组。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9HUCUGza-1609835564269)(HOG.assets/v2-60eafba2db53f5cef77313b712a34315_1440w.jpg)]

从上图可以看到,更多的点的梯度方向是倾向于0度和160度,也就是说这些点的梯度方向是向上或者向下,表明图像这个位置存在比较明显的横向边缘。因此HOG是对边角敏感的,由于这样的统计方法,也是对部分像素值变化不敏感的,所以能够适应不同的环境。

  1. 对16*16大小的block归一化

归一化的目的是降低光照的影响。

归一化的方法是向量的每一个值除以向量的模长。

比如对于一个(128,64,32)的三维向量来说,模长是 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XvoycE1g-1609835564271)(HOG.assets/equation)]

那么归一化后的向量变成了(0.87,0.43,0.22)

那么16*16大小的block是怎么来的?

请看下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a9Ds8EBO-1609835564271)(HOG.assets/v2-8b1272440a88b4ba792b59947c48d55a_b.webp)]

绿色方块是8*8大小的cell,蓝色方块就是由4个cell组成的block。作者提出要对block进行normalize。那么由于一个cell就会有大小为9的vector,四个cell就有36大小的vector。对block进行normalize就是对这大小为36的vector进行归一化。

而每一个block将按照上图篮框移动的方式进行迭代截取。

  1. 得到HOG特征向量

每一个1616大小的block将会得到36大小的vector。那么对于一个64128大小的图像,按照上图的方式提取block,将会有7个水平位置和15个竖直位可以取得,所以一共有715=105个block,所以我们整合所有block的vector,形成一个大的一维vector的大小将会是36105=3780。

得到HOG特征向量,就可以用来可视化和分类了。对于这么大的HOG特征,SVM就排上用场了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值