13、动作预测：MTSSVM方法解析

docker8compose

于 2025-11-12 14:05:25 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：人体活动识别与预测文章标签：动作预测 MTSSVM 词袋模型

本文链接：https://blog.youkuaiyun.com/docker8compose/article/details/154940431

人体活动识别与预测专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

动作预测：MTSSVM方法解析

1. 动作表示

在动作预测任务中，采用词袋模型来表示视频片段和部分视频。学习动作视频视觉词字典的步骤如下：
- 利用时空兴趣点检测器提取视频中的兴趣点。
- 运用轨迹小片段（tracklet）提取视频中的轨迹。
- 通过聚类算法学习视觉词字典。

部分视频$x(1;k)$在进度级别$k$的特征表示为$g(x(1;k); 1Wk)$，它是从第一个片段到第$k$个片段整个部分视频中所含视觉词的直方图。部分视频中第$l$个（$l \in {1, \cdots, k}$）片段$x(l)$的表示为$g(x(1;k); l)$，是时间位置在第$l$个片段内的视觉词直方图。

2. 模型构建

设训练数据为$D = {x_i, y_i}_{i = 1}^{N}$，其中$x_i$是第$i$个完全观察到的动作视频，$y_i$是相应的动作标签。动作预测的问题是学习一个函数$f: X \to Y$，将部分观察到的视频$x(1;k) \in X$映射到动作标签$y \in Y$（$k \in {1, \cdots, K}$）。

采用结构化学习来构建动作预测问题，目标是学习一个判别函数$F: X \times Y \to R$，为每个训练样本$(x, y)$打分，该分数衡量视频$x$与动作标签$y$的兼容性。关注线性函数$F(x(1;k); y; w) = \langle w, \hat{\phi}(x(1;k); y) \rangle$，其中$w$是参数，$\hat{\phi}(x(1;k); y)$是联合特征映射，表示在部分视频$x(1;k)$下动作标签$y$的时空特征。

一旦学习到