动作单元与活动预测:原理、方法与应用
在人类活动预测领域,准确地识别和预测活动对于众多应用场景至关重要,如智能监控、人机交互等。本文将深入探讨活动预测的相关内容,包括预测场景、提出的方法以及具体的操作步骤。
1. 两种预测场景
为了验证所提出方法的有效性,我们在两种不同场景的数据集上进行了预测任务评估。
1.1 仅动作预测场景
此场景下的预测模型适用于多种人类活动,关键要求是活动需包含多个有意义的动作单元。我们选择了两个具有显著不同时间结构复杂度的数据集:
- 网球比赛数据集 :从YouTube收集了两位顶级男性球员的网球比赛视频,共160个视频片段,代表160个得分点。每个得分点包含多次击球交换,被视为一个活动实例。这些片段被分为获胜得分和失败得分两类,预测问题为“能否预测谁将获胜”。由于每个得分点的动作单元序列长度从1到20以上不等,网球比赛在方差和顺序方面具有较高的时间结构复杂度。
- 马里兰人机交互(MHOI)数据集 :包含六种标注活动,如接电话、打电话、喝水等。每种活动约有3 - 5个动作单元,这些动作单元共享相似的人类动作,如伸手拿物体、抓取物体、操作物体和放回物体。每个活动有8 - 10个视频样本,总共54个视频片段。
1.2 上下文感知预测场景
为验证上下文感知模型,我们在两个复杂活动数据集上进行实验,人类动作涉及与各种物体的大量交互。
- MPII烹饪活动数据集 :包含44个烹饪活动实例,在现实环境中连续记录。可预测的高级活动包括准备14种不同的菜肴,如
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



