1.论文介绍
这篇文章主要解决了,图像检索过程当中的突发(Burstiness)问题。在BoW模型当中,一个视觉元素在同一个图片中多次出现可能会降低匹配的质量。
2.图像检索的框架
局部特征和特征与视觉中心的对应
作者通过使用Hessian-afine 检测子来计算SIFT特征。作者在数据集Flickr上通过k-means方法学习到20k大小的视觉词典。对于新的特征,使用欧氏距离来获得这个特征属于的视觉中心。这样就会把一个特征空间分割成多个视觉中心。用 q(x) 表示特征向量 x 的视觉中心的索引。
Hamming Embedding
Hamming Embedding 提供了特征的二进制表示,并通过计算特征之间的海明距离来过滤同一个视觉中心当中距离比较远的图片。Hamming Embedding的匹配的过程如下:
对于一个特征描述子的表示
vote(x,y)={
voted if q(x)==q(y) and h(s(x),s(y))<ht,ht=24unvoted otherwise
上面的公式表明对于待查询的特征,对于和这个特征是同一个视觉中心的特征,他们之间的海明距离小于 ht=24 那么这个特征就会给他所在的图片投票。
加权Hamming Embedding
上述的Hamming Embedding匹配的结果当中只会有投票和不投票两种情况,但是考虑到如果相似的特征,海明距离应该会近,因此,海明距离表明特征的相似度。所以我们可以把计算的海明距离考虑进去。所以可以使用如下的关于海明距离的权重来衡量两个特征之间的相似度。
w(hd)=exp(−