人体交互识别方法解析
1. 数据集与实验设置
1.1 数据集介绍
我们使用的数据集包含8种人体交互动作,分别是鞠躬(bow)、拳击(boxing)、握手(handshake)、击掌(high - five)、拥抱(hug)、踢腿(kick)、轻拍(pat)和推搡(push),每个类别有50个视频。该数据集存在多种挑战,例如主体外观、尺度、光照条件和视角的变化。而且在大多数视频中,演员会被他人身体部位、柱子、桥梁、行人等部分遮挡。部分视频里,交互的人与背景中的无关移动物体(如汽车、行人)存在重叠的运动模式。
1.2 数据划分
随机选取272个视频用于训练交互模型,剩下的128个视频用于测试。在训练数据中,有144个视频用于训练属性模型。
1.3 实验内容
进行了三个实验来评估方法的有效性:
1. 在BIT - Interaction数据集上测试所提出的方法,并与基于动作上下文的方法进行比较。
2. 评估所提出方法中各组件的有效性。
2. 实验结果分析
2.1 在BIT - Interaction数据集上的测试结果
所提出的方法在分类人体交互动作时达到了85.16%的准确率。该方法能够在一些具有挑战性的情况(如部分遮挡和背景杂乱)下识别出人体交互动作,这主要得益于交互短语之间的相互依赖关系。在这些具有挑战性的场景中,相互依赖关系为错误推断的短语提供了强大的上下文信息,使其更符合整体上下文,从而能够正确识别交互动作。不过,大部分误分类是由于不同交互类别的视觉相似动作(如“拳击”和“轻拍”)以及严重遮挡导致的。
超级会员免费看
订阅专栏 解锁全文
344

被折叠的 条评论
为什么被折叠?



