基于强化学习和深度学习的动作与足球视频事件检测
1. 动作识别实验
在动作识别领域,为了评估所提出方法的性能,我们在两个极具挑战性的动作数据集上进行了实验,并与以往的方法进行了对比。
1.1 数据集
- UCF101 数据集 :包含 101 个动作类别,共计 13320 个视频。这些视频源于 YouTube,涵盖了从一般体育活动到日常生活锻炼等各种场景。每个类别至少有 100 个视频片段。该数据集的动作多样性极高,且在相机运动、物体外观和姿态、物体尺度、视角、杂乱背景、光照条件等方面存在较大变化。数据集采用 70% 训练和 30% 测试的方式,进行三次分割。
- HMDB51 数据集 :视频片段来源丰富,包括电影和互联网资源。总共有 6766 个视频和 51 个动作类别。我们遵循原始协议,进行三次训练 - 测试分割。对于每个类别和分割,使用 70 个视频进行训练,30 个视频进行测试。我们以三次分割的平均准确率作为原始视频的性能衡量标准。
1.2 实现细节
- 所有数据集中视频的观察图像块大小为 76×76。
- 对于循环神经网络(RNN),长短期记忆(LSTM)单元有 512 个隐藏单元。
- 每个情节中,智能体有固定数量的观察值,在实验中通常 T = 10。
- 我们使用随机梯度下降优化算法训练模型,小批量大小为 128 个情节,动量为 0.9,权重衰减为 0.0005,初始学习率为 0.001。其他超参数通过随机搜索选择。在本文中,设置 D