On the burstiness of visual elements_ontheburstinessofvisual elements,-优快云博客

本文链接：https://blog.youkuaiyun.com/liu2012huan/article/details/53301945

本文探讨了图像检索中的突发性问题，尤其是在BoW模型中导致匹配质量下降的因素。作者介绍了图像检索框架，包括局部特征计算、Hamming Embedding、加权海明距离等方法，并提出了解决突发问题的策略，包括限制特征匹配次数、使用idf扩展等。实验部分展示了这些方法在多个数据集上的有效性，证明了所提出方法的优越性和可扩展性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.论文介绍

这篇文章主要解决了，图像检索过程当中的突发(Burstiness)问题。在BoW模型当中，一个视觉元素在同一个图片中多次出现可能会降低匹配的质量。

2.图像检索的框架

局部特征和特征与视觉中心的对应
作者通过使用Hessian-afine 检测子来计算SIFT特征。作者在数据集Flickr上通过k-means方法学习到20k大小的视觉词典。对于新的特征，使用欧氏距离来获得这个特征属于的视觉中心。这样就会把一个特征空间分割成多个视觉中心。用 $q(x)$ 表示特征向量 $x$ 的视觉中心的索引。

Hamming Embedding
Hamming Embedding 提供了特征的二进制表示，并通过计算特征之间的海明距离来过滤同一个视觉中心当中距离比较远的图片。Hamming Embedding的匹配的过程如下：
对于一个特征描述子的表示 $s(x)$ ，以及特征的直觉中心表示 $q(x)$

v o t e (x, y) = {v o t e d i f q (x) = = q (y) a n d h (s (x), s (y)) < h t, h t = 24 u n v o t e d o t h e r w i s e

$vote(x,y)= \begin{cases} &voted \ if \ q(x)== q(y)\ and\ h(s(x),s(y)) \lt h_t ,h_t=24 \\ &unvoted\ otherwise \end{cases}$
上面的公式表明对于待查询的特征，对于和这个特征是同一个视觉中心的特征，他们之间的海明距离小于

ht=24 $h_t = 24$ 那么这个特征就会给他所在的图片投票。

加权Hamming Embedding
上述的Hamming Embedding匹配的结果当中只会有投票和不投票两种情况，但是考虑到如果相似的特征，海明距离应该会近，因此，海明距离表明特征的相似度。所以我们可以把计算的海明距离考虑进去。所以可以使用如下的关于海明距离的权重来衡量两个特征之间的相似度。

w (h d) = e x p (-