文章目录
1、摘要
姿态机为学习丰富的隐式空间模型提供了序列预测框架。作者展示了一个系统设计,如何将卷积网络结合到姿态机框架中,用于学习图像特征,以及用于姿态估计任务的图像相关空间模型。本文的贡献是隐式建模结构化预测任务中变量之间的远程相关性,例如关节式姿态估计。作者通过设计一个由卷积网络组成的序列结构来实现这一点,卷积网络直接对前几个阶段的置信图进行操作,对部位位置产生越来越精确的估计,而不需要显式的图形模型式推理。该方法通过提供一个自然的学习目标函数来加强中间监督,从而补充反向传播的梯度并调节学习过程,解决了训练过程中梯度消失的难题。该方法展示了最先进的性能,并在标准基准测试(包括 M P I I MPII MPII、 L S P LSP LSP 和 F L I C FLIC FLIC 数据集)上优于竞争方法。
2、介绍
作者提出卷积姿态机( C P M CPM CPM)用于关节姿态估计。卷积姿态机继承了姿态机架构的优势—隐式地学习图像和部位线索之间远程相关性,学习和推理之间的紧密集成、模块化序列设计,并将它们与卷积框架的优势相结合:直接从数据中学习图像和空间上下文的特征表示能力;一个可微分的架构,允许通过反向传播进行全局联合训练;以及高效处理大型训练数据集的能力。
C P M s CPMs CPMs 由一系列卷积网络组成,这些卷积网络为每个部分的位置重复生成二维置信图。在 C P M CPM CPM 的每个阶段,都使用前一阶段生成的图像特征和置信图作为输入。置信图为后续阶段提供了对每个部位位置空间不确定性的非参数编码,使 C P M CPM CPM 能够学习部位之间关系的丰富的图像相关空间模型。不使用图形模型或专门的后续处理步骤来明确分析这些置信图,而是学习直接在中间置信图上操作的卷积网络,并学习各部位之间关系的隐式图像相关空间模型。所提出的整体多级体系结构是完全可微分的,因此可以使用反向传播以端到端的方式进行训练。
在 C P M CPM CPM 的特定阶段,部分置信的空间语境为后续阶段提供了非常明确的线索。因此, C P M CPM CPM 的每个阶段都会生成置信图,并对每个部位的位置进行越来越精确的估计(见图 1 1 1)。为了捕捉各部位之间的远程交互,后续预测框架的每个阶段的网络设计都是为了在图像和置信图上实现一个大的感受野。作者发现,在置信图上实现大的感受野对学习远程空间关系很重要,并且能够提升精度。
多层卷积网络组成 C P M CPM CPM ,在学习过程中可能面临梯度消失的问题。出现这个问题是因为反向传播的梯度强度通过网络的许多层后会降低。虽然有研究表明,在中间层监督非常深的网络有助于学习,但它们大多局限于分类问题。在这项工作中,作者展示了对于一个结构化的预测问题,例如姿态估计, C P M CPM CPM 自然地提出了一个系统的框架,它补充了梯度,并通过在网络中周期性地加强中间监督来引导网络产生越来越精确的置信图。作者还讨论了这种序列预测结构的不同训练方案。
本文的主要贡献:
- 通过卷积框架序列学习隐式空间模型
- 一种系统的方法,用于设计和训练这样的体系结构,以便在结构化预测任务中学习图像特征和图像相关的空间模型,而不需要任何图形模型样式的推理。
3、相关研究
关节式姿态估计的经典方法是图像结构模型,其中身体各部分之间的空间相关性表示为一个树形结构的图模型,运动学先验将相连的肢体耦合。这些方法在人的所有肢体都可见的图像上是成功的,但是容易出现特征误差,例如重复计数图像证据,这是因为树结构模型没有捕捉到变量之间的相关性。 K i e f e l Kiefel Kiefel 等人的研究基于图像结构模型,但在底层图形表示上有所不同。分层模型表示分层树结构中不同比例和大小的部位之间的关系。这些模型的基本假设是,较大的部位(对应于完整的肢体而不是关节)通常可以具有易区分的图像结构,这种图像结构更容易检测,因此有助于推断较小、较难检测的部位的位置。非树模型结合了引入环的交互作用,以捕捉对称、遮挡和远程关系的附加边来增强树结构。这些方法通常在学习和测试时都必须依赖近似推理,因此必须在空间关系的精确建模和允许有效推理的模型之间进行权衡,通常使用简单的参数形式来进行快速推理。相反,基于序列预测框架的方法通过直接训练推理过程来学习变量之间存在潜在复杂交互的隐含空间模型。
人们对采用卷积结构进行关节姿态估计的模型越来越感兴趣。 T o s h e v Toshev Toshev 等人采用使用标准卷积架构直接回归笛卡尔坐标的方法。最近的研究将图像回归到置信图,并借助于图形模型,这需要手动设计能量函数或空间概率先验的启发式初始化,以去除回归置信图上的异常值。其中一些还利用专用网络模块实现精度精炼。在本研究中,作者展示了回归的置信图适用于输入到具有大感受野的更深的卷积网络中,以学习隐式空间相关性,而无需使用手动设计先验,并且无需细致的初始化和专门的精度精炼,就能在所有精度区域实现最先进的性能。 P f i s t e r Pfister Pfister 等人还使用了具有大感受野的网络模块来捕捉隐含的空间模型。由于卷积的可微性,本文的模型可以进行全局训练。
C a r r e i r a Carreira Carreira 等人训练深度网络,该网络使用误差反馈迭代地改进部位检测,与 [40] 中的做法相同, 使用笛卡尔表示,由于不保持空间不确定性,导致较低的精度。在这项研究中,作者展示了序列预测框架如何利用置信图中保留的不确定性来编码丰富的空间上下文,同时加强中间局部监督来解决梯度消失的问题。
4、方法
4.1、姿态机
作者把第 p p p 个身体部位的像素位置表示为 Y p ∈ Z ⊂ R 2 Y_p∈Z⊂R^2 Yp∈Z⊂R2,其中 Z Z Z 是图像中所有位置的集合。目标是预测所有 P P P 个部位在图像中的位置 Y = ( Y 1 . . . , Y P ) Y=(Y_1 ..., Y_P ) Y=(Y1...,YP) 。姿态机(见图 2 a 2a 2a 和 2 b 2b 2b)由一系列多类预测器 g t ( ) g_t() gt() 组成,这些预测器被训练来预测层次结构的每一层中每个部位的位置。在 t ∈ { 1... T } t\in\{ 1...T\} t∈{
1...T} 的每个阶段中,分类器 g t g_t gt 基于从位置 z z z 处提取的图像特征 x z ∈ R d x_z\in \mathbb R^d xz∈Rd 和来自 t t t 阶段中每个 Y p Y_p Yp 附近的前一分类器的上下文信息,预测每个部位 Y p = z , ∀ z ∈ Z Y_p=z,∀z ∈Z Yp=z,∀z∈Z 的置信度。因此,第一阶段 t = 1 t=1 t=1 中的分类器产生以下置信值:
(1) g 1 ( x z ) → { b 1 p ( Y p = z ) } p ∈ { 0... P } g_1(x_z)\rightarrow\{b_1^p(Y_p=z)\}_{p\in\{0...P\}}\tag1 g1(xz)→{
b