1.视频理解是什么(内容)
视频的本质是图像,可以将视频看做成固定连续序列的图像,在机器视觉中利用视频中的时序信息对视频理解进行研究。同时,视频是多模态的,它包括时序、声音、文字、图像等内容,视频理解是对这些内容进行综合考虑并提取认知信息。
研究问题有分类识别、检测、分割。
研究技术有视频目标跟踪、主体描述、语义理解等,达到了解视频中何人、何时、何地发生了什么事情。
面临的问题有视频数量多、视频场景复杂、视频变化快且不可预测
2.视频理解有什么用(意义)
(1)获取外界信息
(2)减少人工成本
3.视频理解的怎么做(技术)
针对视频 序列内容进行理解的技术可分为经典方法和逐帧融合的方法。
(1)经典方法(深度学习算法成熟之前)
DT(dense trajectories)采用SVM支持向量机分类器进行分类
iDT(improved dense trajectories)基于DT算法的改进
DT和iDT算法处理较慢
神经网络的视频理解
①特征提取:融合处理(将多模态或多帧之间的信息进行融合)
早期融合(early fusion):在分类任务之前进行融合后,将融合特征输入分类器进行分类
晚期融合(late fusion):多模态特征各自进行分类后,将各自的分类结果进行融合
本文主要为视频视觉信息的融合
将视频看成单纯的系列图像集合,每帧图像可单独提取特征,再融合他们的深度特征。
若将视频划分成固定长度的若干片段后,可设计多种融合方法——单帧融合、前期融合、后期融合。
4.视频内容理解的有什么用(应用场景)
视频智能监控、交通行为检测、辅助驾驶车辆、入侵检测等