密集对应估计:从基础到应用
1. 对应估计概述
对应估计是将一幅图像的像素与另一幅图像的像素进行匹配的任务。当涉及到密集对应估计时,重点在于为每个像素找到合适的匹配。在计算机视觉的研究历史中,密集对应估计的工作主要由两个特定问题推动:立体视觉和光流。
立体视觉是将三维场景的一个视图中的像素与同一场景的另一个视图中的像素进行匹配,以确定位移并推断三维结构;光流则是指两幅图像由同一相机在不同时间点拍摄。
传统上,大多数方法都基于“相同场景假设”,即两幅图像捕捉的是同一物理场景,可能因场景独立运动而有所不同。基于这个假设,经典光流方法常使用亮度恒定假设,将相似外观解释为相似的局部像素强度模式来进行像素匹配。
然而,近年来,人们越来越关注打破这一假设,设计即使在两幅图像捕捉完全不同场景时也能进行对应估计的方法。但这面临着挑战,因为不同场景的图像中,一个图像中的物理点显然不会出现在另一个图像中,亮度恒定假设不再适用,需要建立新的匹配标准。
2. 光流估计基础
在将运动概念推广到任意图像之前,先介绍视频的运动分析。运动估计是计算机视觉的基石之一,广泛应用于视频处理、三维重建、目标/事件跟踪、分割和识别等领域。
视频相机能记录移动物体的像素,但运动本身并未直接记录。运动估计的挑战在于获得与人类感知一致的运动。常见的运动表示有参数运动(如仿射和单应性)和光流场,其中光流场中每个像素都有自己的位移向量。这里主要关注光流估计。
对于视频序列中的两个相邻帧,正确的光流场应能消除潜在的运动,使第二帧在根据光流场进行变形后与第一帧相同,并且光流场的不连续性应反映场景中物体的边界。
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



