SIFT Flow:跨场景的密集对应及其应用
1. SIFT Flow的邻域
在理论上,我们可以将光流应用于任意两张图像来估计对应关系。然而,如果这两张图像来自不同的场景类别,可能无法得到有意义的对应关系。实际上,即使在视频序列中对相邻的两帧应用光流,我们也假设时间上是密集采样的,这样相邻两帧之间才会有显著的重叠。
类似地,在SIFT Flow中,当我们用输入图像查询一个大型数据库时,将图像的邻域定义为其最近邻。理想情况下,如果数据库足够大且密集,包含了世界上几乎所有可能的图像,那么最近邻将与查询图像相近,共享相似的局部结构。这就引出了与光流的类比:
- 时间上的密集采样:光流 :: 所有图像空间中的密集采样:SIFT Flow
就像时间域的密集采样能实现跟踪一样,世界图像空间(的一部分)的密集采样被认为可以实现场景对齐。为了实现这种类比,我们收集了一个包含731个视频的102,206帧的大型数据库,这些视频大多来自街景。类似于时间域,我们将查询图像的“相邻帧”定义为该数据库中与它最接近的N个邻居。然后在查询图像和它的N个最近邻之间建立SIFT Flow。
对于查询图像,我们使用一种快速索引技术来检索其最近邻,这些最近邻将使用SIFT Flow进行进一步对齐。作为快速搜索方法,我们采用量化SIFT特征的空间直方图匹配。具体操作步骤如下:
1. 从数据集中所有视频帧中随机选择5000个SIFT描述符,运行K - means算法,构建一个包含500个视觉单词的字典。
2. 在两级空间金字塔上获取视觉单词的直方图,并使用直方图相交来衡量两张图像之间的相似度。
其他场景度量(如GIST)也可用于检索最近邻。有报告指出,各种最近邻匹配算法
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



