SIFT Flow:跨场景的密集对应及其应用
1. 引言
图像对齐、配准和对应是计算机视觉中的核心主题。以往,图像对齐问题的研究主要集中在像素级和对象级。像素级对齐通常是针对同一场景在不同时间或视角下拍摄的图像,用于图像拼接和立体匹配等;对象级对齐则用于对象识别,但这些方法往往要求对象显著且相似,背景干扰少。
而我们关注的是一种新的、更高级别的图像对齐——场景对齐,即对齐来自不同3D场景但具有相似场景特征的两幅图像。场景对齐极具挑战性,因为待匹配的两幅图像可能包含从不同视角捕获、位于不同空间位置或不同尺度成像的对象实例,且可能包含不同数量的同一类对象,甚至某些对象在一幅图像中存在而在另一幅中缺失。
理想情况下,场景对齐应在语义层面建立对应关系,但当前的对象检测和识别技术还不够强大。因此,我们采用匹配局部、显著且具有变换不变性的图像结构的方法,期望通过匹配这些图像结构建立有语义意义的对应关系。
2. SIFT Flow算法
2.1 密集SIFT描述符与可视化
SIFT是一种用于描述局部梯度信息的局部描述符。在本研究中,我们仅使用其特征提取部分。对于图像中的每个像素,将其邻域(如16×16)划分为4×4的单元格数组,在每个单元格中将方向量化为8个区间,从而得到一个4×4×8 = 128维的向量作为该像素的SIFT表示,我们称之为逐像素SIFT描述符或SIFT图像。
为了可视化SIFT图像,我们计算一组图像的SIFT描述符的前三个主成分,并将其映射到RGB空间的主成分上。通过将128维的SIFT描述符投影到3D子空间,我们可以可视化SIFT图像,其中颜色相似的像素具有相似的局部图像结构。需要注意的是,这种投影仅用于
超级会员免费看
订阅专栏 解锁全文

11

被折叠的 条评论
为什么被折叠?



