从遮挡图像中估计人体姿态
1. 图像表示
在人体姿态估计中,我们将每个输入图像观测表示为 $x \in \mathbb{R}^m$,输出的 3D 人体姿态向量表示为 $y \in \mathbb{R}^k$。给定一个包含 $N$ 个带标签示例的训练集 ${(x_i, y_i)|i = 1, 2, \cdots, N}$,基于学习的人体姿态估计方法的目标是学习一个平滑的映射函数,使其能对测试集中未见过的图像观测 $b$ 有良好的泛化能力。
然而,直接的外观特征不可避免地会在 $x$ 中编码不需要的背景信息,这可能会在从测试样本估计姿态时引入显著误差,因为训练和测试样本的背景杂乱情况可能差异很大。此外,如果图像中的人被遮挡,学习到的映射函数的性能也会严重下降,因为部分特征维度被破坏。
为了解决这两个问题,我们提出一种表示测试样本的方法,通过求解凸优化问题来恢复测试样本中被遮挡或无关的部分。
1.1 测试图像作为训练图像的线性组合
当有足够数量的训练样本时,我们可以将测试样本 $b$ 建模为 $N$ 个训练样本的线性组合:
$b = \omega_1x_1 + \omega_2x_2 + \cdots + \omega_Nx_N$
其中,$\omega_i$($i \in {1, 2, \cdots, N}$)是标量系数,表示第 $i$ 个训练样本对合成测试样本 $b$ 的贡献权重。将 $N$ 个训练样本按列排列成矩阵 $A = [x_1, x_2, \cdots, x_N] \in \mathbb{R}^{m \times N}$,则 $b$ 的线性表示可以紧凑地写成:
$b = A\omega$
其
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



