变分自动编码器Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

本文介绍了2018年ECCV论文《DeformingAutoencoders:UnsupervisedDisentanglingofShapeandAppearance》中提出的形变自动编码器,这是一种无监督学习方法,能够将图像的形状和外观解耦分离,通过深度自动编码器实现特征的解耦。模型包括编码器网络和两个解码器网络,分别用于编码形状和外观,并重构图像。此外,还介绍了类感知变形自动编码器和内在变形自动编码器,它们分别用于基于类别解耦形状和外观,以及分解人脸图像的阴影和反照率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

先前的工作

很多文献,在不同领域上,例如图像和视频处理,文本分析等,都探讨了特征解耦分离的问题。为了达到控制和理解深层网络的目的,必须将变化因子进行解耦。对此,已有很多的研究工作开展。先前很多的工作已经很好的探索到将潜在图像表示分离为不同维度的表示,每一维代表变化中的不同因子。这些因子包括身份,光照,空间支持,低维度的变换(例如旋转,平移,缩放等)以及其它一些更具描述性的属性(例如年龄,性别,是否戴眼镜等)

本文介绍的方法

2018年,ECCV 论文 Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance中,研究人员基于一个假设:所有的对象实例都是在原型对象(或者说是模板)上进行变形获得的,来分离形状变形和外观纹理。这意味着对象的可变性被分离为作用于对象形状的,与空间变换相关的 变化 和与外观纹理相关的 变化。虽然该想法听起来比较简单,但是这种使用深度自动编码器和无监督学习的模型特征解耦分离能力十分强大。
论文所提出的方法可以解耦分离形状和外观,并将它们作为学习到的低维潜在空间中的变化因子。论文中的模型采用了一种深度学习体系结构,其中包括一个编码器网络,该网络将输入图像编码为两个潜在矢量(形状和外观各一个) ;和两个解码器网络,两个解码器分别以对应的潜在矢量作为输入,并分别输出生成的纹理和变形。
在这里插入图片描述使用独立的解码器网络分别学习外观和变形特征。生成的空间变形用于使纹理变形为观察到的图像坐标。这样,变形自动编码器可以重建输入图像,并同时将形状和外观解耦分离为不同的特征。整个体系结构仅使用简单的图像重建损失以无监督的方式进行训练。

Deforming Autoencoders

文中T§表示texture即综合的外观纹理。W§表示变形场,I(p)表示最后观测的图片。即 公式(1)
在这里插入图片描述

2.1 Deformation field modeling

本文使用一些领域知识来简化和加速学习,而不是将变形建模完全交给反向传播,使用仿射空间变换层来考虑全局变形,它是使用一个六维输入来合成一个变形场作为一个固定基础上的展开。 文中把Zs进一步分成两部分:
一部分是Zw-------即是非刚性变换(物体的位置(平移变换)和朝向(旋转变换)发生改变,而形状不变,得到的变换称为刚性变换。非刚性变换就是比这更复杂的变换,如伸缩,仿射,透射,多项式等内一些比较复杂的变换。)
一部分是Za-------仿射变换,是一种二维坐标到二维坐标之间的线性变换,如缩放(Scale)、平移(transform)、旋转(rotate)、反射(reflection, 对图形照镜子)、错切(shear mapping),它会保持二维图形的“平直性”和“平行性”。
如下图b是本文描述的warping module,图c发生了相对像素位置的翻转。
为此,我们让变形解码器预测变形的水平和垂直增量(分别为∇xW和∇yW),并使用ReLU传递函数来移除因沿垂直或水平方向返回而引起的局部翻转。
它会保持二维图形的“平直性”和“平行性”
如图(f),如果没有适当的正则化,我们通常会得到变形场,这些变形场可以扩展小区域以占据整个区域,并且是非差分对称的,这意味着变形可以将连接的纹理图案扩展到断开的图像区域。
在这里插入图片描述
为了解决这个问题,不让形状解码器CNN直接预测局部翘曲场,我们考虑一个产生翘曲场空间梯度的差分去编码器:∇xWx and ∇yWy,(∇c表示空间梯度向量的第c分量),这两个量测量连续像素的位移,∇xWx=1表示水平轴上的平移,∇xWx=2表示水平移动2,而∇xWx=-1表示左右翻转.通过访问这两个值,我们可以处理变形场,因为可以通过控制∇xWx,∇yWy来防止折叠/过度拉伸。

2.2 Class-aware Deforming Autoencoder

在这里插入图片描述
除了变形自动编码器,研究人员还提出了类感知的变形自动编码器。它在学习重建图像的同时,解开由类决定的变化的形状和外观因子。为了达到这个目的,研究人员引入了一个分类器网络,他们引入了一个分类器网络,该网络采用一个潜在向量(除了用于形状和外观的潜在向量之外,还用于对类进行编码的第三个潜在向量)。这种体系结构允许学习基于输入图像类别(而不是联合多峰分布)的混合模型。

2.3 Intrinsic Deforming Autoencoder: Deformation, Albedo and Shading Decomposition

此外,研究人员提出一种变形自动编码器来学习解耦分离人脸图像的阴影和反照率(这是计算机视觉领域普遍存在的问题),他们称这种变形自动编码器为内在变形自动编码器(Intrinsic-deforming autoencoder),图示如下:
在这里插入图片描述
在这里插入图片描述
warping loss由下面两个组成:
在这里插入图片描述
它是根据水平和垂直差异翘曲场的总变化范数来测量的,用来惩罚由局部翘曲场编码的快速变化的变形。
在这里插入图片描述
旨在消除拟合过程中引入的任何系统偏差。

Experiments

在这里插入图片描述
如图很明显能看出第一个工作干了什么。a是输入的图像;b是重建的图像;c是经过编码的图像表示(即综合外观),d是解码之后的图像变形。
使用类感知变形自动编码器对MNIST图像进行图像重建的结果,可以明显观测到e的效果最好。在这里插入图片描述
仅仅通过学到的变形表示,可以在保持其纹理的同时更改面的形状和姿势如图(1)(2);可以生成从一个图像到另一个图像的平滑变形(3,5,7)。 (4,6,8)是使用自动编码器产生的结果,通常会出现伪影,我们的遍历停留在面部的语义多样性上,并生成尖锐的面部特征。显然通过变形表示的方式更好。
在这里插入图片描述
Intrinsic Deforming Autoencoders和Autoencoders的对比。在这里插入图片描述

《三维电子书(素描0135)的页面失真问题》 电子书是电子化出版物的一种形式,通过数字技术将书籍内容以电子文档的形式呈现。素描0135此书是一本三维电子书,而其页面失真问题可能是指在浏览或阅读电子书的过程中,发现书页的图像或内容出现了变形或扭曲的现象。 出现页面失真问题可能是由以下原因造成的: 1. 图像压缩问题:电子书在制作过程中,为了减小文件大小,可能会对页面图像进行压缩处理。如果压缩比例过大或压缩算法不佳,可能导致书页上的图像出现失真。 2. 分辨率不匹配:电子书在不同设备上阅读时,可能会因为设备屏幕分辨率的不同而导致页面失真。例如,在一个设备上制作的高分辨率电子书,在低分辨率设备上显示时可能会出现图像变形。 3. 格式兼容问题:不同电子阅读器或应用程序对电子书格式的解析与显示方式可能有所差异,这可能导致页面在不同设备上展示时出现失真。 要解决页面失真问题,可以采取以下措施: 1. 优化图像压缩算法:制作电子书时,使用适当的图像压缩算法,并根据目标设备的分辨率进行适度压缩,以减小文件大小的同时确保图像质量。 2. 设备适配:在制作电子书时,根据不同设备的分辨率进行适配,生成适应各种屏幕分辨率的版本,以在不同设备上获得更好的显示效果。 3. 检查格式兼容性:在发布电子书之前,测试和验证电子书在不同设备和阅读器上的显示效果,确保其格式兼容性,尽量减少页面失真问题的出现。 总之,解决三维电子书页面失真问题需要在制作和发布过程中重视图像压缩、设备适配以及格式兼容等问题,以提升用户的阅读体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值