人类交互识别与人员分割的创新模型
1 模型基础概述
在人类交互识别领域,有两个关键模型值得关注。首先是类特定结构模型,它在不观察任何低级特征的情况下,能根据给定的交互类 a ,预测第 j 个补丁可能处于的状态。该模型通过权重向量 ωj 对特征向量 φ(hj, y) 进行评分来体现偏好。由于特征向量是 0 - 1 向量,若 ωj(b, a) 中的某个元素为正,那么当当前交互类为 a 时,模型会倾向于将第 j 个补丁标记为 b 。
另一个是全局交互模型 λTψ(x, y) ,用于区分不同的交互类。其特征向量定义为:
[
\psi(x^0, y) = 1(y = a) \cdot x^0
]
其中, x^0 ∈ Rd 是从整个动作视频中提取的特征向量,这里采用词袋表示法来描述整个视频。若不考虑其他组件,这个势函数本质上是用于交互识别的标准线性模型。若忽略式 (2.12) 中的其他势函数,仅考虑全局交互势函数,参数 λ 可通过标准多类线性 SVM 进行学习。
与现有交互识别方法相比,所提出的补丁感知模型专为具有紧密物理接触的交互识别而设计。该模型通过三个组件(类特定补丁组件、全局补丁组件和类特定结构组件)在细粒度补丁级别考虑运动。这三个组件对局部 3D 补丁的外观和结构信息进行建模,使我们能够在补丁级别准确分离交互的人员。
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



