动作预测:MTSSVM方法解析
1. 动作表示
在动作预测任务中,采用词袋模型来表示视频片段和部分视频。学习动作视频视觉词字典的步骤如下:
- 利用时空兴趣点检测器提取视频中的兴趣点。
- 运用轨迹小片段(tracklet)提取视频中的轨迹。
- 通过聚类算法学习视觉词字典。
部分视频$x(1;k)$在进度级别$k$的特征表示为$g(x(1;k); 1Wk)$,它是从第一个片段到第$k$个片段整个部分视频中所含视觉词的直方图。部分视频中第$l$个($l \in {1, \cdots, k}$)片段$x(l)$的表示为$g(x(1;k); l)$,是时间位置在第$l$个片段内的视觉词直方图。
2. 模型构建
设训练数据为$D = {x_i, y_i}_{i = 1}^{N}$,其中$x_i$是第$i$个完全观察到的动作视频,$y_i$是相应的动作标签。动作预测的问题是学习一个函数$f: X \to Y$,将部分观察到的视频$x(1;k) \in X$映射到动作标签$y \in Y$($k \in {1, \cdots, K}$)。
采用结构化学习来构建动作预测问题,目标是学习一个判别函数$F: X \times Y \to R$,为每个训练样本$(x, y)$打分,该分数衡量视频$x$与动作标签$y$的兼容性。关注线性函数$F(x(1;k); y; w) = \langle w, \hat{\phi}(x(1;k); y) \rangle$,其中$w$是参数,$\hat{\phi}(x(1;k); y)$是联合特征映射,表示在部分视频$x(1;k)$下动作标签$y$的时空特征。
一旦学习到
超级会员免费看
订阅专栏 解锁全文

13

被折叠的 条评论
为什么被折叠?



