视频动作识别、动作分类、动作检测、图像分类的定义、概念、任务、涉及算法及SOTA优势:
视频动作识别
- 定义与概念:是指对一小段视频中的内容进行分析,判断视频中的人物或物体执行了哪种动作。其核心在于解决视频中动作“在哪里”和“是什么”的两大核心问题,需要同时考虑视频的空间和时间维度信息。
- 任务:输入是视频片段,一般将其采样为若干帧,对采样帧的动作类别进行识别,输出视频中动作类别标签。
- 涉及算法:
- 基于传统方法:如基于全局表示的时空量方法,利用三维时空量的表面微分几何特性得到动作描述子;基于局部表示的时空感兴趣点方法,通过检测图像帧的像素值在空间和时间方向上具有显著局部变化的局部时空结构,提取局部时空尺度不变的特征进行动作分类。
- 基于深度学习方法:
- 时空卷积神经网络(CNN):3D卷积网络(3D-CNN)直接在时空维度上进行卷积操作,能够同时捕捉视频中的空间和时间特征,如C3D模型;双流网络(Two-Stream Networks)一个流处理RGB图像的空间信息,另一个流处理光流图像的时间信息,通过融合这两条流的特征进行动作识别。
- 时序模型(RNN/LSTM/GRU):递归神经网络(RNN)对视频中的序列信息进行建模,用于处理视频帧之间的时间依赖性,但易出现梯度消失问题;长短时记忆网络(LSTM)解决了RNN的梯度消失问题,擅长捕捉长时间的依赖关系;门控循环单元(GRU)与LSTM相似,但更为轻量。
- 基于时序卷积的模型:时间卷积网络(TCN)利用卷积操作代替RNN,通过卷积层捕捉时间序列中的长短期依赖关系。
- 基于Transformer的模型:视频Transformer通过自注意力机制有效建模序列中的长程

最低0.47元/天 解锁文章
221

被折叠的 条评论
为什么被折叠?



