基于时间上下文的有效动作检测系统
相关工作
在动作检测中,通常使用时间滑动窗口来生成候选视频片段,候选片段的数量往往非常庞大。因此,需要从裁剪后的片段集中选择尽可能包含真实动作的提议,同时为了减轻后续计算负担,选择的提议数量应尽可能少。
近期的工作采用了多种提议生成方法,例如动作管、基于密集轨迹的提议、快速提议方法、片段袋和稀疏编码提议等。大多数方法依赖于密集轨迹或使用分层分组方法。Heilbron等人首次使用稀疏编码进行提议生成,采用了一种可以适应不同活动类型的提议学习函数。
提议分类通常利用动作识别中使用的方法。早期的动作方法大多依赖于手动选择的特征,如时空兴趣点和密集轨迹。近年来,许多先进的动作检测方法使用改进的密集轨迹。Yuan等人构建了MPII烹饪活动数据集,并采用集成直方图的轨迹特征进行高效计算。
另一方面,神经网络在计算机视觉应用中取得了巨大成功。Du等人提出了由深度三维卷积网络学习的时空特征,即C3D,概念简单且易于训练。Wang等人提议结合运动和外观特征进行动作检测。Karaman等人提出了基于快速显著性的Fisher编码密集轨迹池化用于动作检测。Singh和Cuzzolin使用C3D特征和二元随机森林分类器进行动作检测。Shou等人提出了多阶段卷积神经网络来解决之前提到的问题,并为定位网络使用了一种新颖的损失函数。Yuan等人提出了带有循环神经网络的分数分布特征金字塔用于动作检测。Yeung等人提出了一种从视频帧瞥见中进行端到端动作检测的学习方法。
提议生成
对于一个长的未裁剪视频,首先通过滑动窗口提取大量候选片段。通过删除不太可能包含动作的候选片段,从候选集中生成动作提议。提议生成存在一个权衡:
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



