多级别视频事件理解中的动作基元学习
一、引言
近年来,计算机视觉领域对复杂视频事件的理解愈发关注。复杂视频事件通常涉及多个相互关联的人物,且包含不同粒度的丰富时空结构。例如在养老院监控视频中,我们可能会提出一系列问题,如:场景中是否有人摔倒?摔倒的人在哪里?何时以及如何摔倒的?是否有人前来帮忙?这些问题涉及从整体事件到个体细粒度细节的多个层面。
为了实现对视频事件的全面理解,我们开发了一个新颖的框架,涵盖事件分类(如养老院摔倒事件)、动作识别与定位(如站立、蹲下)、细粒度动作基元发现(如推轮椅、向右蹲下)以及时空结构提取(如在刚摔倒几秒的人旁边蹲下)。
理解复杂视频事件极具挑战性,它不仅面临人物检测和动作识别的困难,还存在事件分类特有的难题。尽管分层模型在整合动作和社会角色等多种语义方面提升了事件分类性能,但仍有两个重要问题未得到妥善解决:动作定位和细粒度外观解读。我们通过建模动作基元来解决这些问题,动作基元包含基本动作类别无法捕捉的细粒度信息。
传统的人体检测器在捕捉现实、无约束视频中人类动作的广泛外观方面存在困难。我们认为,细粒度动作基元是解决动作类别内外观变化的关键。考虑到获取此类标注的难度,我们倡导在弱监督环境下进行,即训练时提供动作类别,从训练数据中自动发现动作基元。我们提出了一种判别式时空聚类算法来发现动作基元,并将其作为潜在支持向量机(SVM)框架中的混合组件,在学习过程中进行细化。
二、相关工作
人类活动识别领域的研究广泛,涵盖了该问题的多个方面。这里我们主要回顾与空间和时间表示以及动作类别学习密切相关的研究。
1. 个体表示方法
-
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



