行为识别
任务
- 预测某个时间间隔上的行为。
- 视频分类:预测整个视频的行为。
- 图像分类器。
难点
- 严重依赖物体和场景。数据集带来的问题:骑马和跑步可以用有没有马来区分;遛狗和化学可以用背景区分。这也就导致了真正对动作去区分这么一个功能没做到。
- 光流的问题:长度和语义。光流的帧数少难以描述长时间的动作。本身意义不明显,论文On the Integration of Optical Flow and Action Recognition提出了一个观点光流可能只是掩盖了外观信息。
- CNN擅长捕获物体和场景信息,所以会在训练过程中让动作识别靠物体和场景识别出来。
- 密集快速的运动。
- 空间语义信息细微差别。
- 复杂的时域动态线索。
- 基本的推理能力。
相关数据集
可以分成RGB数据集(早期)和深度骨架序列数据集(来自于微软Kinect等一些深度传感器的应用)。
| 数据集 | 数据模态 | 采样数量 | 类别 |
|---|---|---|---|
| KTH | RGB | 2391 | 6 |
| HMDB51 | RGB | 6766 | 51 |
| UCF50 | RGB | 6618 | 50 |
| UCF101 | RGB | 13320 | 101 |
| MSR-Action3D | Depth | 567 | 20 |
| Kinetics | RGB + Depth | 300000 | 400 |
| NTU-RGB+D | RGB + Depth | 56880 | 60 |
| NTU-RGB+D 120 | RGB + Depth | 114480 | 120 |
RGB数据集上各个深度学习模型
双流网络
可以使用多任务学习——两个数据

行为识别任务涉及预测视频中行为,主要难点包括依赖物体和场景、光流问题以及复杂动态线索。常用模型有双流网络、3D卷积和LSTM。数据集分为RGB和深度骨架序列,其中RGB数据集上的模型如双流网络和3D卷积,深度骨架序列则利用RNN、CNN和GCN。未来研究重点是提高训练效率、设计高效多流网络和优化特征融合与注意力机制。
最低0.47元/天 解锁文章
2856

被折叠的 条评论
为什么被折叠?



