长时复杂活动预测:从理论到实践
1 引言
在当今世界,多媒体信息无处不在,视频成为了备受青睐的信息载体,社交媒体和监控录像的数量也在惊人地增长。活动理解是提升语义级视频分析的重要问题,它旨在用关键语义元素准确描述视频内容,特别是活动。在需要紧急决策的情况下,可以利用视频的时间结构对正在进行的人类活动进行早期预测。
近年来,研究表明,对复杂人类活动的识别,建模时间结构是一种基本方法。这些研究扩展了机器视觉系统能够理解的人类活动类型,使得从视频中的观察动作或事件预测活动或即将发生的事件成为现实。
许多智能系统都能从活动预测中受益:
- 体育视频分析 :预测体育比赛的进展或结果的能力非常重要。
- 公共区域监控 :希望监控系统能在潜在危险活动发生前发出警报。
- 智能房间 :通过摄像头预测人们的活动意图,系统可以自适应地提供服务,甚至在必要时提供帮助。
然而,活动预测在计算机视觉领域是一个较新的话题,存在着可计算的低级特征与它们所编码的语义信息之间的长期语义差距。以往的研究主要集中在短时长单一动作的早期检测,限制了可预测活动的类型和预测的早期性。我们认为,关注长时长复杂活动(如“做三明治”)的活动预测更有价值。我们的方法旨在用不同的框架解决长时长预测问题,重点在于语义级的理解和推理。
具体来说,我们提出了一种新的方法,通过发现组成动作之间的因果关系和活动的可预测特征来预测长时长复杂活动。关键是利用观察到的动作单元作为上下文,预测下一个可能的动作单元,或预测整个活动的意图和效果。我们将复杂活动表示为具有特定
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



