视频相似度测量与搜索
1. 引言
随着视频捕获、存储和压缩技术的进步,数字视频的数量急剧增加。例如,每分钟有超过100小时的视频上传到YouTube,每月观看时长超过40亿小时,Facebook也有相当的数量。然而,基于内容的视频检索系统(CBVR)的有效性限制了这些海量视频的实用性。处理大量视频数据,尤其是压缩域(如MPEG)的数据,对CBVR系统来说是一项挑战。此外,由于压缩产生的非像素化特征(如DC/AC系数和运动向量)需要复杂的处理。
研究人员致力于开发强大的工具,以高效、快速地搜索和检索相关视频,使其接近人类对视频相似度的感知。人类可以从不同粒度层次观看视频,包括基于场景主色调(如绿色花园、蓝色天空)、包含的物体(如汽车、坦克、飞机)、动作(如骑自行车、握手、游泳),甚至更高的语义层次(如足球比赛、动作电影、婚礼派对)。
本文核心讨论基于视觉相似度的视频匹配和检索。视觉相似度是CBVR系统的核心,视频根据各自的视觉特征及其在视频帧中的演变进行匹配。它有助于缩小语义差距,即低级特征与人类相应感知之间的差异。但视觉相似度具有高度挑战性,因为其匹配条件宽松,不仅仅是简单的视角变化或光度变化。
2. 视频分析光谱
视频分析是一个热门研究领域,涵盖不同的工作层次,包括拷贝检测、近似重复、动作识别、视觉相似度和语义相似度。
- 拷贝检测 :是视频分析的最低层次,是处理数字内容和保护版权的基本要求。面临的挑战从简单的强度变化到视频帧中插入图片不等。这是光谱中最严格的一层,处理经过一些光度变化和/或几何变换的完全相同的视频。
- 近似重复 :一个视
超级会员免费看
订阅专栏 解锁全文
2022

被折叠的 条评论
为什么被折叠?



