行为识别相关文献阅读

行为识别任务涉及预测视频中行为,主要难点包括依赖物体和场景、光流问题以及复杂动态线索。常用模型有双流网络、3D卷积和LSTM。数据集分为RGB和深度骨架序列,其中RGB数据集上的模型如双流网络和3D卷积,深度骨架序列则利用RNN、CNN和GCN。未来研究重点是提高训练效率、设计高效多流网络和优化特征融合与注意力机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

行为识别

任务

  1. 预测某个时间间隔上的行为。
  2. 视频分类:预测整个视频的行为。
  3. 图像分类器。

难点

  1. 严重依赖物体和场景。数据集带来的问题:骑马和跑步可以用有没有马来区分;遛狗和化学可以用背景区分。这也就导致了真正对动作去区分这么一个功能没做到。
  2. 光流的问题:长度和语义。光流的帧数少难以描述长时间的动作。本身意义不明显,论文On the Integration of Optical Flow and Action Recognition提出了一个观点光流可能只是掩盖了外观信息。
  3. CNN擅长捕获物体和场景信息,所以会在训练过程中让动作识别靠物体和场景识别出来。
  4. 密集快速的运动。
  5. 空间语义信息细微差别。
  6. 复杂的时域动态线索。
  7. 基本的推理能力。

相关数据集

可以分成RGB数据集(早期)和深度骨架序列数据集(来自于微软Kinect等一些深度传感器的应用)。

数据集 数据模态 采样数量 类别
KTH RGB 2391 6
HMDB51 RGB 6766 51
UCF50 RGB 6618 50
UCF101 RGB 13320 101
MSR-Action3D Depth 567 20
Kinetics RGB + Depth 300000 400
NTU-RGB+D RGB + Depth 56880 60
NTU-RGB+D 120 RGB + Depth 114480 120

RGB数据集上各个深度学习模型

双流网络

可以使用多任务学习——两个数据集来防止过拟合。

举例:Spatial-Temporal Channel Correlation Networks for Action Classification, 2018

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值