关于2006_CVPR_Beyond Bags of Features Spatial Pyramid Matching for Recognizing Natural Scene Categorie

本文详细解析了一种图像处理算法的核心步骤,包括均匀网格划分图像、计算密集型尺度不变特征转换(SIFT)特征向量、构建词汇表、量化特征向量为直方图,并计算金字塔以增强特征表示能力。通过公式和实例,深入探讨了每一阶段的技术细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://blog.youkuaiyun.com/love_yanhaina/article/details/8794694

先mark一下!后续在自己总结~

对这篇paper及对应code研究好久了,也困惑了好久,现在终于有点明白是怎么回事了,赶紧记下来

对应代码的整个算法过程如下(代码是丕子的):

Step1 用均匀网格划分图像。程序中采用8*8像素,即gridspace=8。比如32*40的图像可画出(32/8*(40/8)=4*5grid(一个网格用黑色块表示)。

Step 2 计算特征向量(dense sift)。程序中采用16*16patch(一个patch用紫色表示)计算一个描述子(即一个特征向量),这样一个patch包括4grid。计算时,一个patch划分为4*416)个bin,每个bin4*4pixel(一个bin用红色表示),每个bin计算一次sift8维),这样一个patch就计算16次,共16*8=128维。然后计算下一个patch,即上一个patch向右移动一个grid(移动后为浅色边框部分),以此类推,直到移动到图像的边缘,然后向下移动,这样共有(4-1*5-1=12patch。每个patch对应一个128维的描述子,最终,这幅图像可以用12128维的向量表示(12*128)。

 

Step 3 计算词典。采用k-means方法构造单词表,即用每幅图像的描述子进行cluster运算,代码中计算的词典vocabulary=200,每个单词为128维向量。

Step 4 计算每幅图像的直方图(VQ)。每幅图像的描述子(即特征向量)用词典量化,这样一幅图像就可以用12个词来表示,即12*1的矩阵。12*128  12*1)。

Step 5 计算金字塔。Paper中的三层金字塔计算如下。

由计算公式1算出每幅图像可用4200维的向量表示。式中M为词汇数(200),L为金字塔的层数(3)。

Step 6 金字塔匹配(SPM)。主要参考下面这个公式:

Xm,Ym分别为两幅图像中第mchannel的描述子(descriptor)集合,都是二维的(分别是描述子的横坐标和纵坐标)。一个channel即一种type(码字),对每一个channel做金字塔匹配,最后求和。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值