视频相似度测量与搜索
1. STIP 特征的局限性
STIP(时空兴趣点)在处理通用相似度问题时,判别能力较弱。这是因为它对运动模式的匹配条件较为宽松,尤其对可见物体的数量和运动没有严格限制。不过,时空特征在特定领域应用中表现出色,例如动作识别。在这个领域,由于不同视频中相似动作的运动模式具有先验知识,这有助于 STIP 的检测和稳健的运动捕捉。但对于通用视觉相似度问题,既没有关于物体运动模式的先验知识,也不强调视频中单个物体的动作,因此 STIP 并不适用。此外,STIP 特征的计算和处理成本高昂,且具有高维度的特点,这限制了它在大规模数据上实现快速和可扩展性能的应用。
2. 基于匹配技术的分类
在分析了最常用的特征/描述符之后,接下来需要选择合适的匹配技术。这些技术将融合所选的特征/描述符集,并为相应视频之间的相似度提供度量分数。相关文献根据匹配技术可分为以下五个子类别:
1. 基于学习的方法
- SVM 与 BoW 结合 :支持向量机(SVM)结合词袋(BoW)量化特征是最流行的选择。例如,通过计算相邻像素块的平方差之和(SSD)生成运动交换模式(MIP),将信息量化为 BoW 直方图,供 SVM 识别视频中的各种动作。
- 高级特征方法 :如 ActionBank,基于预提取的动作模板构建,每个动作类有单独的检测器,所有检测器的响应作为视频的特征向量输入 SVM 分类器。还有 Motionlets,将具有高运动显著性的长方体聚类,其响应驱动 SVM 更准确地识别动作。
- 深度学习的兴起
超级会员免费看
订阅专栏 解锁全文
2021

被折叠的 条评论
为什么被折叠?



