用于多级视频事件理解的动作基元学习
1. 多级事件表示得分定义
我们将使用多级事件表示来解释视频帧 x 的得分定义如下:
[F_{\theta}(x, y) = \sum_{i \in H, t \in T} \alpha_{y, i, t} \cdot x_t^i + \sum_{i \in H, j \in H, t \in T} \beta_{y, z_t^i, z_t^j, t}^{\top} \cdot [x_c^i, x_t^j, d_{ij}^t]]
其中,(x_t^i) 可互换地表示从人物 (x_t^i) 的边界框中提取的特征。为了计算效率,在我们的模型中,将 (x_t^i) 设置为动作基元检测器的标量输出。此外,(\theta = [{\alpha}, {\beta}]) 是要在最大间隔框架中学习的模型参数。
下面详细介绍公式中的各个组件:
- 一元事件 - 动作势能 (\alpha_{y, i, t} \cdot x_t^i) :该势能捕获了帧的事件 y 与在给定时间片段中发生的每个动作 i 之间的兼容性。(\alpha_{y, i, t}) 是一个标量参数,用于对事件 y 在时间片段 t 中的动作 i 进行加权,高权重表示有判别性的动作。
- 二元动作基元势能 (\beta_{y, z_t^i, z_t^j, t}^{\top} \cdot [x_c^i, x_t^j, d_{ij}^t]) :该势能捕获了事件与动作基元对之间的兼容性。由于我们的目标是对当前视频帧进行建模,所以固定第一个人 (x_c^i) 执行共现动作。第二个人 (x_t^i) 可以在任何时间片段
超级会员免费看
订阅专栏 解锁全文
1551

被折叠的 条评论
为什么被折叠?



