变分自动编码器Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

最新推荐文章于 2022-10-27 17:32:36 发布

原创最新推荐文章于 2022-10-27 17:32:36 发布 · 760 阅读

CC 4.0 BY-SA版权

本文介绍了2018年ECCV论文《DeformingAutoencoders:UnsupervisedDisentanglingofShapeandAppearance》中提出的形变自动编码器，这是一种无监督学习方法，能够将图像的形状和外观解耦分离，通过深度自动编码器实现特征的解耦。模型包括编码器网络和两个解码器网络，分别用于编码形状和外观，并重构图像。此外，还介绍了类感知变形自动编码器和内在变形自动编码器，它们分别用于基于类别解耦形状和外观，以及分解人脸图像的阴影和反照率。

Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

先前的工作

很多文献，在不同领域上，例如图像和视频处理，文本分析等，都探讨了特征解耦分离的问题。为了达到控制和理解深层网络的目的，必须将变化因子进行解耦。对此，已有很多的研究工作开展。先前很多的工作已经很好的探索到将潜在图像表示分离为不同维度的表示，每一维代表变化中的不同因子。这些因子包括身份，光照，空间支持，低维度的变换（例如旋转，平移，缩放等）以及其它一些更具描述性的属性（例如年龄，性别，是否戴眼镜等）

本文介绍的方法

2018年，ECCV 论文 Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance中，研究人员基于一个假设：所有的对象实例都是在原型对象（或者说是模板）上进行变形获得的，来分离形状变形和外观纹理。这意味着对象的可变性被分离为作用于对象形状的，与空间变换相关的变化和与外观纹理相关的变化。虽然该想法听起来比较简单，但是这种使用深度自动编码器和无监督学习的模型特征解耦分离能力十分强大。
论文所提出的方法可以解耦分离形状和外观，并将它们作为学习到的低维潜在空间中的变化因子。论文中的模型采用了一种深度学习体系结构，其中包括一个编码器网络，该网络将输入图像编码为两个潜在矢量（形状和外观各一个）；和两个解码器网络，两个解码器分别以对应的潜在矢量作为输入，并分别输出生成的纹理和变形。
在这里插入图片描述使用独立的解码器网络分别学习外观和变形特征。生成的空间变形用于使纹理变形为观察到的图像坐标。这样，变形自动编码器可以重建输入图像，并同时将形状和外观解耦分离为不同的特征。整个体系结构仅使用简单的图像重建损失以无监督的方式进行训练。

Deforming Autoencoders

文中T§表示texture即综合的外观纹理。W§表示变形场，I(p）表示最后观测的图片。即公式（1）
在这里插入图片描述

2.1 Deformation field modeling

本文使用一些领域知识来简化和加速学习，而不是将变形建模完全交给反向传播，使用仿射空间变换层来考虑全局变形，它是使用一个六维输入来合成一个变形场作为一个固定基础上的展开。文中把Zs进一步分成两部分:
一部分是Zw-------即是非刚性变换（物体的位置(平移变换)和朝向(旋转变换)发生改变，而形状不变，得到的变换称为刚性变换。非刚性变换就是比这更复杂的变换，如伸缩，仿射，透射，多项式等内一些比较复杂的变换。）
一部分是Za-------仿射变换，是一种二维坐标到二维坐标之间的线性变换，如缩放（Scale）、平移(transform)、旋转(rotate)、反射（reflection, 对图形照镜子）、错切(shear mapping），它会保持二维图形的“平直性”和“平行性”。
如下图b是本文描述的warping module，图c发生了相对像素位置的翻转。
为此，我们让变形解码器预测变形的水平和垂直增量（分别为∇xW和∇yW），并使用ReLU传递函数来移除因沿垂直或水平方向返回而引起的局部翻转。
它会保持二维图形的“平直性”和“平行性”
如图（f）,如果没有适当的正则化，我们通常会得到变形场，这些变形场可以扩展小区域以占据整个区域，并且是非差分对称的，这意味着变形可以将连接的纹理图案扩展到断开的图像区域。
在这里插入图片描述
为了解决这个问题，不让形状解码器CNN直接预测局部翘曲场，我们考虑一个产生翘曲场空间梯度的差分去编码器：∇xWx and ∇yWy，(∇c表示空间梯度向量的第c分量），这两个量测量连续像素的位移,∇xWx=1表示水平轴上的平移，∇xWx=2表示水平移动2，而∇xWx=-1表示左右翻转.通过访问这两个值，我们可以处理变形场，因为可以通过控制∇xWx，∇yWy来防止折叠/过度拉伸。

2.2 Class-aware Deforming Autoencoder

在这里插入图片描述
除了变形自动编码器，研究人员还提出了类感知的变形自动编码器。它在学习重建图像的同时，解开由类决定的变化的形状和外观因子。为了达到这个目的，研究人员引入了一个分类器网络，他们引入了一个分类器网络，该网络采用一个潜在向量（除了用于形状和外观的潜在向量之外，还用于对类进行编码的第三个潜在向量）。这种体系结构允许学习基于输入图像类别（而不是联合多峰分布）的混合模型。

2.3 Intrinsic Deforming Autoencoder: Deformation, Albedo and Shading Decomposition

此外，研究人员提出一种变形自动编码器来学习解耦分离人脸图像的阴影和反照率（这是计算机视觉领域普遍存在的问题），他们称这种变形自动编码器为内在变形自动编码器（Intrinsic-deforming autoencoder），图示如下：
在这里插入图片描述

warping loss由下面两个组成：

它是根据水平和垂直差异翘曲场的总变化范数来测量的，用来惩罚由局部翘曲场编码的快速变化的变形。

旨在消除拟合过程中引入的任何系统偏差。

Experiments

在这里插入图片描述
如图很明显能看出第一个工作干了什么。a是输入的图像；b是重建的图像；c是经过编码的图像表示（即综合外观），d是解码之后的图像变形。
使用类感知变形自动编码器对MNIST图像进行图像重建的结果，可以明显观测到e的效果最好。在这里插入图片描述
仅仅通过学到的变形表示，可以在保持其纹理的同时更改面的形状和姿势如图（1）（2）；可以生成从一个图像到另一个图像的平滑变形（3，5，7）。（4，6，8）是使用自动编码器产生的结果，通常会出现伪影，我们的遍历停留在面部的语义多样性上，并生成尖锐的面部特征。显然通过变形表示的方式更好。
在这里插入图片描述
Intrinsic Deforming Autoencoders和Autoencoders的对比。