
项目的重点是变形操作的特征化与实现,解决卷积神经网络中的信息失准问题。我们将所研究的方法应用到一个换衣服的任务中,将其建模为一个条件图像生成问题。尽管对抗性方法在生成性任务中很流行,但我们将此项目的范围限制为监督方法,因此有助于变形操作的学习。尽管在三维建模的深度学习领域取得了令人兴奋的进展,但我们将这个项目的范围限制在二维图像上。
图像到图像的转换
本项目特别感兴趣的是图像到图像的转换任务,其中包含特定情况下的条件图像修复和换衣任务。
图像到图像的转换时是一个广泛的术语,包含了许多视觉问题,其中输入源和期望输出都是图像的形式。文献中有一些值得注意的例子:风格迁移、图像修复、条件图像生成。语义分割也可以分为图像到图像的转换任务,因为输出与输入图像共享相同的空间结构,就像自然图像和医学图像一样。
编解码体系结构
编码器-解码器体系结构通常用于这些任务。实际上,这些网络可以分为两个阶段。第一部分,即编码器,接收原始图像作为输入,并通过一系列卷积层和池化层,提取不同尺度的特征,并将信息压缩为低维表示。第二部分,解码器,对这种低维表示进行操作,并使用反卷积或上采样步骤生成最终图像。仅使用卷积,而不是包括完全连接的层,允许这种结构处理任何大小的图像,并产生总是与输入的空间分辨率相同匹配的输出。

这类体系结构的主要缺点(通常被称为信息瓶颈)与它的沙漏形状有关。在接近网络输入端时,特征体积更宽,且应更低(按通道),当通过编码器时,特征体积变得更窄和更深。然后在解码器内部进行逆过程,当特征体积接近输出层时,特征体积变得更宽和更浅。在文献中,已经证明了每个尺度上的特征都有助于视觉相关任务。虽然从理论上讲,在网络的瓶颈出压缩所有必要的信息时可能的,但它需要很深的卷积层。由于参数数量的增加和长时间的反向传播依赖,这些反过来会严重减慢训练过程。
U-Net
Ronneberger、Fischer和Bro小提出了一个巧妙的解决方案,即U-Net架构和skip连接的概念。此名称表示编码器的每一层和解码器的相应层之间的快捷连接。在每个尺度上,提取的特征能够直接影响同一尺度下的重建过程。此外,由于来自解码器的梯度可以通过更直接的路径传播会解码器,因此这种连接模式改善了非常深层网络的训练过程。在最初的论文中,使用U-Net实现了医学图像分割的最新精度,随后,同样的概念被成功的应用到其他一些相似的应用中。

密集连接模式
U-Nets展示了远程连接,如何改善网络内部的信息流,并在正确的位置提供正确的信息。在较短的范围内,还可以设计连接模式,以鼓励特征重用并提高参数效率。
Huang,Liu和weinberger在以相同尺度运行的卷积层支架引入了密集连接方案。在这些层组或密集块中,每一层的输出连接到其输入并反馈到下一层,以最大化特征重用并改进信息流。使用DenseNet,作者可以在广泛采用的基准上改善分类性能,同时还可以减少参数数量和推理时间。

Jegou等将密集块的概念引入到完全卷积的网络和U-Net架构中,他们的FCDenseNet架构改进了语义分割的最新技术,同时减少了具有相似层数的参数w.r.t网络的数量。

密集块的特征有两个参数:层数lll和生长速率kkk,密集块序列的每一层都会应用归一化、ReLU、卷积和Dropout。所有卷积运算都使用大小为3x3的kkk个卷积核,对称填充为1,以在块内保持相同的高度和宽度。
块的第一层输入x∈RC×H×Wx \in R^{C \times H \times W}x∈RC×H×W,生成kkk个特征图。随后每一层的输入是前一层的输入和输出的连接,输出kkk个特征图。块的输出为lll层个输出的连接,从而得到与输入具有相同空间分辨率,通道数为k⋅lk \cdot lk⋅l的特征图簇。
在编码路径和网络瓶颈中,每个块的输入也连接到输出,得到(k⋅l+c)×H×W(k \cdot l + c) \times H \times W(k⋅l+c)×H×W。而对于编码路径的块,仅将其内部层的输出连接起来以形成输入,从而产生k⋅lk \cdot lk⋅l个通道。
transition down(TD)和transition up(TU)层分别用于编码和解码路径中特征图尺度的缩小和放大。铁门通过池化和转置卷积运算来实现。

Pix2pix
由于其灵活性,U-Nets的应用领域不仅限于语义分割,而且可以轻松的适应图像到图像的转换任务。
Isola等人使用带有跳过连接的CNN作为生成对抗网络的生成器,并将其pix2pix架构应用于广泛的图像到图像的生成任务。
通过他们的工作,作者建立了用于生成条件图像的框架,其中将图像用作输出图像的调节源。尤其是,他们将地图制图转换为卫星图像,将草图转换为图像,将语义图转换为街道和城市场景等,反之亦然。

信息对齐问题
U-Nets,以及通常具有跳过连接的任何体系结构,都可以与多个源一起使用,以构建更复杂的系统。只要所有输入共享一个共同的空间表示,可以通过简单的通道连接串联多个通道源,并利用网络中的卷积元素来提取他们之间的关系。
例如,可以将常规相机获取的RGB图像信息与光谱的其他波段融合在一起,从俯瞰图中识别物体。或者堆叠以不同扫描方式获得的MRI图像以改善3D脑分割。
这些示例依赖于要连接的特征的空间对齐。如果不同源之间没有正确对齐,则跳过连接对网络无益。未对齐的源问题有两个方面,不仅在编码器中而且在跳过连接中都出现。
-
编码器的未对准问题
CNN的第一层有相当小的感受野,即相对于整个图像,用于计算神经元输出的图像块相对较小。显然,对于具有单一信息源的 应用而言这不是问题:前几层将在一个小范围内提取特征,然后再由更下一层进行聚合,以产生更多的全局特征。但是,当未对齐的源叠加在一起时,第一层无法聚合所有输入通道的特征,从而降低了网络的表示能力。在这种情况下,只有较深的层具有足够全局性的感受野,可以利用不同空间位置的特征。

-
跳过连接的未对齐问题
前述问题会影响其输入未对齐的所有CNN。在U-Nets和类似体系结构的特定情况下,在解码器中会再次出现相同的问题。为了更好的理解未对准如何影响U-Net的第二阶段,让我们考虑编码器和解码器中相应位置的两层。在这两者之间,信息只能通过两条路径流动:第一条路径是穿过网络的较低层,第二条路径是跳过连接。
穿过较深层的路径是编码器功能的复杂非线性函数。由于池化、卷积和上采样层,该功能可以全局作用于输入的所有(或部分)空间位置。 相反,跳过连接实现了一个身份映射,它预先服务于特征激活和它们的空间位置。
在解码器端,这两个输入将通过卷积结合在一起,卷积同样在本地近邻上运行。为了使复制的信息有意义,必须将其放置在需要的位置,即必须在跳过连接之前将其与目标图像对齐。如果不是这样,解码器将无法利用跳过连接的特性,并且将被迫通过瓶颈传递所有所需的信息,从而有效的退化为编码器-解码器体系结构。
虚拟试衣方法
独立研究小组最近已经以不同的观点和方法来考虑换衣服或虚拟试穿。CAGAN提出了一种有条件的图像到图像转换的无监督方法,将pix2pix和CycleGAN的思想融合在一起。VITON将问题定义为一个图像修复任务,并以有监督的方式训练了一个两阶段网络。
CAGAN
在CAGAN中,衣服交换问题被构造为图像分析任务,并使用具有周期一致性的生成对抗网络解决。

在其设置中,为生成器G提供了人类图像hih_ihi和两件衣服商品图像,aia_iai是该模特最初穿的衣服,aja_jaj是要交换的新衣服。这些图像是根据人体模型相应的真实分布php_hph和衣服相应的真实分布pap_apa绘制的,有两个匹配的下标,表示同一物品的存在。
生成器的输出是图像h~j∼pG\tilde h_j \sim p_Gh~j∼pG,描述初始化人体模型穿着aja_jaj衣服:
h^j=G(hi,ai,aj,z)withz∼N(0,1)\hat h_j = G(h_i, a_i, a_j, z) with z \sim N(0, 1)h^j=G(hi,ai,aj,z)withz∼N(0,1)
请注意,推理时需要aia_iai,渲染网络不适合在家尝试的场景,因为客户所穿的衣服通常是未知的。尽管如此,这项工作仍与受控业务环境中的内容创建应用有关。
因为真实图像h~j\tilde h_jh~j不存在于训练集中,因此不可能用监督信号训练G。因此,训练条件判别器D(h,a)D(h,a)D(h,a)来评估成对

本文探讨了在虚拟试衣任务中解决信息不对齐问题的方法,重点关注变形操作的特征化和实现。通过分析现有的卷积神经网络架构,如U-Net和DenseNet,以及空间变换网络,提出了端到端可训练的网络结构,以实现服装图像和人体模型的精确对齐。研究比较了不同的变形策略,包括在编码器开始时和在跳过连接中进行变换,以及基于CNN和超网络的变形模块。实验结果表明,端到端训练的网络可以生成高质量的换装图像,同时保留了服装和人体模型的细节。未来工作包括提高生成速度、实现3D拟合以及处理高分辨率图像。
最低0.47元/天 解锁文章
951

被折叠的 条评论
为什么被折叠?



