多视图数据的事件检测与场景分析技术详解
在多视图数据处理中,特征提取和分析是至关重要的环节。特征大致可分为基于外观和基于运动的特征两类。
特征分类
- 基于外观的特征 :主要通过提取代表外观属性(如颜色、纹理和形状)的局部和全局描述符来获取。部分研究直接使用原始像素数据或颜色直方图,而另一些则依赖标准特征,如尺度不变特征变换(SIFT)和方向梯度直方图(HOG)。近年来,卷积神经网络提取的特征逐渐占据主导地位。
- 基于运动的特征 :通常利用光流或跟踪数据进行计算。通过计算速度和加速度(即光流及其导数),可以表示分割区域、物体和形状的时间变化。其他流行的特征包括光流直方图(HOF)和运动边界直方图(MBH)。由于MBH是从光流导数计算得到的,它不受恒定运动的影响,因此对相机运动具有较强的鲁棒性。
多视图下的时间同步挑战
在多视图设置中,跨视图的时间同步是一个极具挑战性的问题。特别是在视听场景中,视频帧率(通常约为25 - 30帧/秒)与音频帧率显著不同,因此必须对两种模态的特征进行适当采样,以实现时间对应。此外,还需考虑两种模态之间天然存在的异步性,即视听事件的线索可能不会同时出现在两种模态中。
多视图数据分析的通用技术
多视图数据分析技术主要在表示层或决策层进行操作。
表示和特征集成/融合
表示或特征集成/融合是将来自不同视图的不同类型特征或低级数据表示组合成一个公共表示的过程,通常供预测系统使用。
- 特征向量拼接 </
超级会员免费看
订阅专栏 解锁全文
6598

被折叠的 条评论
为什么被折叠?



