FiNet 和 InfoGAN

本文介绍了FiNet和InfoGAN两种深度学习模型。FiNet是一个两阶段图像到图像生成框架,用于时尚形象修复,兼顾兼容性和多样性。通过形状和外观生成网络,FiNet能在保留视觉兼容性的同时产生多种合成结果。InfoGAN则通过最大化潜在变量与生成结果的互信息,学习到可解释的特征表示,无须监督学习即可获得有意义的特征控制。这两种方法都展示了深度学习在计算机视觉领域的创新应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习报告3

兼容多样的时尚形象修复 FiNet: Compatible and Diverse Fashion Image Inpainting(ICCV 2019)

(参考:博客

视觉兼容性对于时尚分析至关重要,但在现有的时尚图像合成系统中却缺少。该论文建议通过时尚图像修补显式地建立视觉兼容性模型。为此,作者提出了时尚修复网络(FiNet),这是一个两阶段的图像到图像生成框架,能够执行兼容且多样化的时尚形象修复。为了区分形状和外观的生成以确保获得真实感的结果,该框架由一个形状生成网络和一个外观生成网络组成。更重要的是,对于每一代网络,作者都引入了两个相互作用的编码器,以在共享的兼容性空间中学习latent code(潜码/隐含输入/隐变量,它包含了某些语义属性)。latent representations(隐式表示?这个概念不是特别理解,大概与隐变量有关)与相应的生成网络联合优化以调节合成过程,从而鼓励生成在视觉上与现有时装兼容的各种结果。此外,该论文的框架很容易扩展到服装改造和时尚转换。大量的实验与最新的时装合成任务方法进行比较,从数量上和质量上证明了该方法的有效性。

该论文的贡献包括:

  1. 提出了一种两阶段的图像到图像生成框架FiNet,用于修复时尚形象时能兼具兼容多样化的特点。

  2. 集成了一个兼容模块,该兼容模块能将服装兼容性信息(隐含信息)编码到网络中,从而使生成服装的形状和外观为与待修复图像现有服装在生成的隐样式空间中接近。

背景

在深度生成模型最近的突破,特别是变分自编码器(VAES),生成对抗网络(GANs)及其变体等,为在计算机视觉中无数时尚的应用打开大门,包括服装设计(如有条件的类比GAN:在人像上时尚换装),语言引导方式合成图像,虚拟试穿系统(如VITON:基于映像的虚拟试穿网络Pivtons:具有条件图像完成功能的姿势不变虚拟试穿鞋),基于服装的外观转换(如Swapnet:基于图像的服装转换人的外观转换)等等。与刚性物体的图像生成不同,时尚合成更加复杂,因为它涉及形成兼容搭配的多件服装。同一搭配中的物品可能具有截然不同的外观,例如质地和颜色,但它们在组装在一起时是互补的。因此,探索不同服装之间的兼容性以合成各种时装图像对于产生令人满意的虚拟试穿体验和令人惊叹的时装设计产品组合至关重要。

探索时尚图像合成的视觉兼容性关系,要生成一套整体服装是极具挑战性的,因为这需要在人物上生成各种形状和外观都不同的服装。因此该论文中仅仅通过使用现有服装中的人物,将视觉范围缩小到图像修复,从而为视觉兼容性建模。目标是渲染一组逼真的服装,以填充图像中缺失物品的区域,同时匹配现有服装的样式。而这在深度生成模型中的一个困难之处就是期望合成服装彼此相容的同时,使生成结果多样化。

视觉的兼容性一般是通过共同出现或共同购买来了解(如异质共生的视觉服装风格学习(这篇论文讨论了学习视觉兼容性的问题,与本文中假定出现在同一张现实照片即搭配的假设前提不同,它的前提是同一商品风格标签以及常被一同购买的服装是搭配的)),或者对象之间在上下文关系上精神相似(上下文中的对象)。研究表明,深度生成模型可以有效地利用上下文补绘失踪的区域,产生独特的结果,与周围的环境相一致,对图像进行合成(如(上下文编码器:基于图像修复的特征学习(提出一种无监督视觉特征学习算法,能够捕获视觉结构的语义),深度生成模型的语义图像修复)。

将这一思想推广到时装合成中更具有挑战性,因为我们需要合成形状和外观具有多样性的逼真的时装,同时确保所修补的服装在时尚风格上与当前图像中的现有服装兼容。这要求通过学习各种服装之间的固有关系来明确地编码兼容性,而不是简单地对上下文本身进行建模。另一个重大区别是,人们期望在时尚图像合成中使用多模式输出——对与缺少一件服装的时装形象,可以生成形状和外观不同的各种物品,来与已有服装搭配。而传统的图像修补通常是单模式问题。例如,在图1的示例中,一个上身可以具有不同类型的衣物形状(例如长袖或短袖),每种上衣类型在视觉外观上可以具有各种颜色。因此,缺失衣物的合成需要对形状和外观进行建模。但是,将它们的生成同时进行,通常会因为二者的耦合而无法处理好衣服的形状和边界(着装的人的生成模型(ClothNet,将生成过程分为了两部分,并经过实验发现“没有提出的两阶段结构,模型无法确定形状和布料边界。”),做你自己的普拉达:结构连贯的时尚合成(同样先生成分割图,再用另一个GAN渲染图像))。

在这里插入图片描述

图1. FiNet修复缺失时尚衣服,合成结果在形状和外观上都兼具兼容性和多样性。

方法
为了解决这些问题,作者提出了一个两阶段框架FiNet,该框架通过生成一组具有多样性的现实且兼容的时尚商品,在像素级别填充图像中缺失的时尚商品。FiNet利用一个形状生成网络和一个外观生成网络依次生成形状和外观,如图2所示。形状生成器和外观生成器共享相似的网络结构,并且它们都建立在U-Net结构上(U-Net:用于生物医学图像分割的卷积网络),而具体的结构在文章的附录中详细地标明了。

在这里插入图片描述

图2. FiNet框架。形状生成网络旨在在给定形状兼容性信息的情况下填充缺失的分割图,而外观生成网络则使用内嵌的分割图和外观兼容性信息来生成缺失的服装区域。形状和外观兼容性模块都带有不确定性,这使我们的网络可以生成如图1所示的各种兼容的时尚商品。

每个生成网络包含一个通过重建合成新图像的“编码器-解码器”生成器,以及两个相互作用以在保持视觉兼容性的同时鼓励多样性的编码器网络。以图3的形状生成网络为例,一个编码器学习缺失衣物的隐式表示,该隐式表示受到来自第二个编码器的隐变量的约束(学习一个兼容性隐空间,通过KL散度,在这个隐空间中鼓励兼容的时尚物品具有相似的分布),该第二个编码器的输入来自缺失项的相邻衣服。

在这里插入图片描述

图3. 形状生成网络结构

更正式地说,形状生成网络的目的是学习一个映射 G S G_{S} GS,该映射在将形状编码器 E S E_{S} ES的输出 z s z_{s} zs作为条件的情况下,能够把有缺失的外形信息 S ^ \hat{S} S^以及人体表示图 p S p_{S} pS映射到一个完整的外形信息图 S S S

为了得到人体的分割结果以训练该生成器,研究者使用了现有的人体解析器模型(通过零件分组网络进行实例级人物解析,该模型在 LIP 数据集上预训练)。假设给出一张输入的图像 I I I,研究者首先通过该解析器模型得到人体各部位的分割图,然后,通过合并相应区域,最终得到全身 8 大区域的掩码(但本文只考虑4种)。以上 8 种解析结果最终构成了 8通道的二进制图 S S S,它被用作输入重构后结果的ground truth值。映射 G S G_{S} GS的输入 S ^ \hat{S} S^通过把 S S S相应服饰所在区域的掩码去掉之后得到。例如,在图1中,合成上衣服装时,形状上下文 S ^ \hat{S} S^是通过删除可能出现上衣的区域产生的,这个区域由覆盖上衣和上身的边界框来表示。

此外,为了在形状重建中保留人的姿势和身份信息,作者采用与服装无关的特征 p S p_{S} pS,其包括人体姿势表示,以及头发和脸部区域布局。姿势表示包含在 COCO 关键点检测数据集上训练的现成姿势估计器(用于多人姿势估计的级联金字塔网络)所提取的 18 通道热图。由人体解析器(同样是通过零件分组网络进行实例级人物解析)生成面部和头发的二值掩码,其面部和头发区域中的像素设置为 1。然后将两个表示连接起来形成 p S p_{S} pS,其通道数为19。

直接使用标准的图像到图像转换网络如PIX2PIX通过 S ^ \hat{S} S^ p S p_{S} pS重新构建 S S S,虽然可行,但只会产生单一的输出,没有多样性。作者从变分自动编码器(VAEs)中汲取灵感,并使用隐向量 z s z_{s} zs进一步调整生成过程,通过在推理过程中的采样来鼓励多样性。

由于我们的目标是生成各种款式的服装以填补缺失的区域,我们使用形状编码器 E S E_{S} ES的训练 z s z_{s} zs来编码形状信息。

给定输入形状 x S x_{S} xS(通过 S  \text{S\ } 产生,是缺失服装的ground truth二进制分割图),形状编码器 E S E_{S} ES输出 z s z_{s} zs,利用重参数化技巧来使得损失函数可微, z S ∼ E S ( x S ) z_{S}\sim E_{S}(x_{S}) zSES(xS)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值