读论文BinarizedNormedGradientsforObjectnessEstimationat300fps

最新推荐文章于 2022-07-29 15:53:25 发布

原创最新推荐文章于 2022-07-29 15:53:25 发布 · 8.4k 阅读

9 ·

CC 4.0 BY-SA版权

Image/Audio/ML... 专栏收录该内容

43 篇文章

订阅专栏

本文探讨了程明明老师在CVPR2014发表的关于目标检测的BING算法，该算法通过缩小窗口尺寸至8x8，降低分辨率以加速计算，同时使用简单梯度特征和LinearSVM训练窗口打分参数，实现单帧图片计算时间仅为0.003秒。通过位运算优化计算过程，大幅提高速度，适用于大规模数据处理。

部署运行你感兴趣的模型镜像

关于论文

这两天翻了翻cvpr2014的论文，发现程明明老师关于Objectness Detecting的论文，于是拜读了一番。论文贡献了两个观点：

目标有closed boundary，因此将窗口resize到8x8也能进行目标和背景的识别，这实际上降低了窗口的分辨率，resize到8x8目的是加速计算。这就相当于我们看路上走的人一样，在很远的地方即使我们没看清楚脸，只是看到一个轮廓也能识别出是不是我们认识的人，反而，如果脸贴着脸去看一个人可能会认不出来。作者还使用了最简单的梯度特征，运算量非常小。
作者巧妙的将对窗口打分（分数越高，越可能是目标，否则越可能是背景）的计算转化为（或近似）通过位运算来实现，并以此为基础达到单幅图片的计算时间为0.003s。

窗口打分是通过一个线性模型来操作的（其实就是一个滤波器），

$s_l=\langle\mathbf{w},\mathbf{g_l}\rangle......(1)$

为获得权值w，则必须通过训练数据训练，作者采用了最简单的Linear SVM，大致过程应该是：对训练用数据，目标窗和背景窗分别给定不同的分数（从程序上看，目标窗是1，背景窗是-1），训练数据经过Linear SVM调整w使训练数据的误差最小，得到调整w向量就用于预测中的窗口打分，打分越接进1的窗口为目标窗，否则为背景窗。

使用Linear SVM训练打分窗口的参数倒也没什么，重点在：窗口的预处理中考虑目标一般情况下“不会太小”，选择了一些固定的sliding window，如，10x160,10x320等，并且采取了降低窗口分辨率的方式，将窗口都resize到8x8，之后再进行窗口打分或训练w的操作。我对resize这种操作的理解是：虽然resize会降低前景与背景的差异，可能使前背景难以区分，但这种操作同时也减小了背景和背景之间、前景和前景之间的差异，但只要“背景和背景之间、前景和前景之间的差异”减小得比“前景与背景的差异”更多一些，则还是对区分前景和背景有利的，只不过应该可以找个折中，作者貌似为了计算的效率，直接resize到8x8了。所以(1)中的w和gl都是64维的向量。

既然得到了w，就能直接根据(1)计算窗口的分数，确定预测目标了，但作者没有简单的按(1)式做，而是将(1)的操作转化为位运算，这也是为什么特征称为BING（B就是Binarized），直接采用硬件指令大幅度地提升速度。为使用二进制运算，必须将w和gl都转成二进制的模型。Algorithm1就是将w转成二进制模型的算法，我感觉原理大致就是：将w在投影到不同的正交向量上，如果还不理解Algorithm1，好好看看算法是怎么操作的，那不就是“Gram-Schmidt正交化”吗？只不过只取了包含大部分信息的前Nw个正交向量作为输出，目的也是为了降低计算量。NG特征gl转成二进制模型是

$g_l=\sum_{k=1}^{N_g}2^{8-k}\mathbf{b_{k,l}}....(2)$

我觉得大概的意思好像是，比如一个十进制的数121D，转成二进制就是0111 1001B，也可以直接将低位截断（这时Ng=3），用0111 1000近似代替121D。不过这里还是有些不明白，b_kl不是8x8维的特征吗？就不明白这里是什么意思了，矩阵求sum会得到标量的gl？感觉这一段下表用得有些混乱，没解释太清楚。而为了计算64维的BING特征，要扫描64个点，作者用Algorithm2也是通过二进制的移位运算降低计算量，就如作者原文所说的——有些类似于积分图像的计算一样（with the integral image representation）。

最后将算法1和2结合起来对窗口打分的操作由卷积运算变成了大部分是位运算操作，

$s_l=\sum_{j=1}^{N_w}\beta_j\sum_{k=1}^{N_g}C_{j,k}....(3)$

其中C_j,k是

$C_{j,k}=2^{8-k}(2\langle{a_j}^+, \mathbf{b_{k,l}}\rangle-|\mathbf{b_{k,l}}|).....(4)$

上面的计算很容易通过位运算和SSE指令（支持8x8=64bit）来完成快速运算。

关于程序

程老师的程序也跑了遍，大致看了看，太佩服大牛了，即使想得到，这程序也不一定能写得好，居然还用的C++。程序配置上需要安装OpenCV，貌似低的版本还不行，作者原先用的VS版本是VS2012，如果不想自己重新编译OpenCV，最好使用OpenCV 2.4.8以上（我用的是2.4.10）。准备好OpenCV环境后，还需要的准备工作包括：

下载VOC数据库，作者的页面给了链接，但要注意Annotations和VOC官方的xml格式不同，作者转成了yml格式方便OpenCV读，下载后覆盖原VOC数据库中的xml文件即可。这些都可以在 http://mmcheng.net/bing/ 的Downloads选项中找到链接
配置VS2012：因为程序中使用了并行处理，所以要开启/openmp，在配置的“C/C++->语言”选项中，另外可能需要SSE指令，在“C/C++->代码生成”中启用/arch:SSE2，不过貌似我的启用了，但编译时提示忽略未知选项“/arch:SSE2”，在我的x64上用不了，但也索性先这样跑着

我电脑上跑出来的效果貌似和论文给的还是差了一大截，但运算速度相对其它以前的方法来说已经好了不知多少了，

跑出来的结果

StageI也就是训练w参数居然用了13s，StageII用了344s居然，单张图片0.1s。把程序最后一行objNess.illuTestReults(boxesTests);注释去了，在VOC2007/Local/下能看到图片预测目标窗口的结果

目标窗结果

效果还是不错的，精度还没怎么做分析，程序运行结束后，VOC2007/Results/下生成有个PerImgAll.m的文件，直接在Matlab中就能跑出结果：在1000样本处DR约96%，2038以上DR就达到97%了。

DRandMABO

上面的精度曲线称为DR-#WIN curves，源自TPAMI 2012的一篇论文：Measuring the objectness of image windows。原文还提出了将窗口数量比如[[0,5000]归一化到[0,1]之间，用曲线下的面积作为目标检测的度量结果，并称之为the area under the curve(AUC)，这样AUC的范围就在[0,1]之间了。

检测精度DR的计算

DR的计算是参考The PASCAL Visual Object Classes (VOC) Challenge，目标检测任务中DR的计算的是true/false positive精度，将算法检测目标结果放到groud truth中，将“预测目标区域与groud truth区域的交集”除以“预测目标区域与groud truth区域的并集”作为DR：

$DR = \frac{area(B_p \bigcap B_{bg})}{area(B_p \bigcup B_{bg})}$

DR自少在50%以上才算目标检测正确，其实，50%已经是很低的了，几乎不能做为检测结果，难怪那些个算法（BING这篇文章也是）随随便便都到95%以上了。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

11 条评论

小苍耳 2018.03.29
博主您好，我问一下yml.m 中有 ImgNetDir = 'D:\WkDir\DetectionProposals\ImageNet\ILSVRC2012_bbox_train_v2\' 为什么会有这个路径，是有用到这个数据么，求翻牌

Bobby_Hu 2017.06.27
测试出来图片的候选窗口结果在BBoxesB2W8MAXBGR中，但里面txt文件中坐标比如 -0.461132, 1, 1, 491, 512 -0.461343, 1, 193, 491, 704 -0.479793, 161, 1, 416, 512 -0.480088, 65, 1, 320, 512 -0.511761, 1, 225, 491, 480 -0.521294, 97, 193, 352, 704 -0.546336, 1, 129, 491, 384 -0.560924, 193, 193, 448, 704 感觉不是很对啊，怎么使用这些候选窗口？
- stph回复Bobby_Hu 2017.09.07
  [reply]Bobby_Hu[/reply] 与.yml文件有关，比如测试集第一幅图000001的.yml文件里有： - bndbox: {xmin: 48 , ymin: 240 , xmax: 195 , ymax: 371 } name: dog pose: Left truncated: 1 difficult: 0 - bndbox: {xmin: 8 , ymin: 12 , xmax: 352 , ymax: 498 } name: person pose: Left truncated: 1 difficult: 0

Bobby_Hu 2017.06.27
测试出来图片的候选窗口结果在BBoxesB2W8MAXBGR中，但里面txt文件中坐标比如 -0.461132, 1, 1, 491, 512 -0.461343, 1, 193, 491, 704 -0.479793, 161, 1, 416, 512 -0.480088, 65, 1, 320, 512 -0.511761, 1, 225, 491, 480 -0.521294, 97, 193, 352, 704 -0.546336, 1, 129, 491, 384 -0.560924, 193, 193, 448, 704 感觉不是很对啊，怎么使用这些候选窗口？

大头wj 2016.07.28
调试的时候报错： Dataset:'D:/WkDir/DetectionProposals/VOC2007/'with 2501 training and 0 test 检查了一下，我的voc2007文件下面只有ImageSets，没有JPEGImages，是这个原因吗？JPEGImages需要另外下载吗？
- 影月风格厂回复大头wj 2017.05.18
  [reply]u013857378[/reply]你这个问题应该是你要修改路径，那是作者原始的VOC2007路径，必须修改为你自己的VOC2007的路径，注意斜杠方向，我就是吃了这个亏，几天没调出来。。。
- yijing1768回复大头wj 2016.11.22
  [reply]u013857378[/reply] 你好为什么的测试样本和训练样本数都为0，添加了YML格式的数据了呢

zsszhaoshuaishuai 2016.07.04
大家好，我最近也在研究BING特征，我已经调通代码，现在想把它应用在自己的领域，碰到很多问题，谁研究出来了，能不能留个联系方式，一块研究一下，谢谢，真心希望能互相交流一下，没有别的意思
- 赏星乐事回复zsszhaoshuaishuai 2017.04.12
  你好，还在研究BING算法吗？我也在学习这个算法，想找个一起交流学习的伙伴，能一起吗？谢谢

zsszhaoshuaishuai 2016.06.20
你好,我程序在生成的时候代码没有问题,但是运行的时候出现 load annotations finished Dataset:'D:/WkDir/DetectionProposals/VOC2007/'with 2501 training and 0 test WinRecall.m Base=2,W=8,NSS=2,perSz=130 Learning stage I takes 395.108 seconds 出现的错误为代码的这一行 INT64 bcT1 = __popcnt64(tig1); 我觉得可能是代码和VOC存放路径的问题，我能不能看一下你们程序和数据存放的路径，谢谢，希望各位大神帮我看一下
- yijing1768回复大头wj 2016.11.22
  [reply]u013857378[/reply]请问你的路径存放怎么解决的
- 大头wj回复zsszhaoshuaishuai 2016.07.28
  [reply]zsszhaoshuaishuai[/reply] 我也出现了和你同样的问题，请问你解决了吗？
- zsszhaoshuaishuai回复zsszhaoshuaishuai 2016.06.20
  你好,那个问题我下午已经解决了,现在出现的是第一阶段选练完成,但是问题出现在: inline float FilterBING::dot(const INT64 tigl,const INT64 tig4,const INT64 tig8) { INT64 bcT1=__popcnt64(tig1);问题出现在这 } 希望大神能帮我看一下，谢谢

KryptonPC 2016.05.06
大神，请问一下要想用训练和测试自己的图像该怎么做啊？
- 赏星乐事回复爱吃甜点的奋斗girl 2017.04.12
  你好！请问你的测试数据搞好了吗？我也想加入自己的测试数据。想和你交流一下
- 爱吃甜点的奋斗girl回复KryptonPC 2017.03.30
  [reply]KryptonPC[/reply] 你好！请问你训练和测试自己的数据，实现了吗？我也想加入自己的测试数据。想交流一下~~
- KryptonPC回复xiahouzuoxin 2016.05.06
  [reply]xiahouzuoxin[/reply] 我试了把其中几个样本改成我的，然后就跑不了了；而且在我电脑上跑的时间跟您说的那个时间差别挺大...... 还有为什么它检测出来的结果会直接是目标，不是应该有很多候选框吗？它做了什么处理吗？
- xiahouzuoxin回复KryptonPC 2016.05.06
  [reply]KryptonPC[/reply] 我没做过，思路两条： 1. 把自己的数据处理成VOC数据的格式 2. 改源码中读取数据的方式其实推荐第一种，因为自己的Detection的数据肯定也是要处理的，索性做成VOC的格式

qq_31673849 2016.04.15
您好，请问一下，目标计算机是X64,与模块计算机x86冲突，是说明我的opencv的库是32的吗，，是不是要重新生成64位的库???
- 伽蓝雨不停回复qq_31673849 2016.10.18
  [reply]qq_31673849[/reply] 是的，我也遇到过这样的情况，包含64位的库就好了。
- xiahouzuoxin回复qq_31673849 2016.04.15
  [reply]qq_31673849[/reply] opencv 32位和64位是不一样的，你用的是VS吗，可能是工程配置文件里还有问题

qq_31673849 2016.04.15
请问我下了源码之后要解压密码，请问是多少呀？？急。。请告知邮箱614879942@qq.com
- qq_31673849回复qq_31673849 2016.04.15
  [reply]qq_31673849[/reply] 好吧，知道了，自己没仔细看，太着急了