摘要:
自Gatys等人引入神经方法以来,在艺术风格转换的研究领域就出现了前所未有的繁荣。剩下的挑战之一是要在速度,灵活性和图像质量这三个关键方面之间进行权衡:(i)基于vanilla优化的算法可为任意风格的结果,但由于其迭代性质不太令人满意, (ii)基于前馈神经网络的快速逼近方法可产生令人满意的艺术效果,但仅限于有限的风格,(iii)诸如AdaIN之类的特征匹配方法可实现实时的任意风格转换,但以质量受损为代价。我们发现仅使用单个前馈步骤很难很好地权衡取舍,所以,探索是否存在可以快速适应任何风格的算法,同时适合的模型可以保持高效率以及良好的图像质量。受此想法的启发,我们提出了一种新颖的方法,称为“ MetaStyle”,该方法将神经风格转换表示为双层优化问题,并且仅将学习与少量后期处理更新步骤结合在一起,即可适应具有令人满意的艺术效果的快速逼近模型,与任意风格的基于优化的方法相媲美。 实验中的定性和定量分析表明,该方法有效地实现了高质量的任意艺术风格转换,并且在速度,灵活性和图像质量之间取得了良好的折衷。
1. 引言:
为了减少早期的繁琐工作,计算机视觉和机器学习社区联手设计了自动算法,以从原始艺术作品中渲染出具有相同风格的内容图像。风格转换问题涵盖了广泛的工作,并在一开始被视为纹理合成问题(Diaconis和Freedman 1981; Zhu,Wu和Mumford 1998)。 一些值得注意的工作包括:(i)非参数采样方法(Efros和Leung 1999)和树结构矢量量化的加速方法(Wei和Levoy 2000),(ii)基于补丁的采样方法(Efros和Freeman 2001; Liang 等 2001)以获得更好的质量和效率,(iii)使用EM-like算法的能量最小化方法(Kwatra等,2005),以及(iv)图像类比(Hertzmann等,2001),以产生“过滤后的”结果及其扩展 肖像画(赵和朱,2011)。
随着最近深度神经网络和计算机视觉中大型数据集的发展,Gatys,Ecker和Bethge(2016)首次发现结合了在ImageNet上训练的多级VGG特征(Simonyan和Zisserman 2014)(Deng et al.2009)在平衡内容图像的统计信息的同时,成功捕获了风格的特征,从而使艺术风格转换的任务产生了令人印象深刻的结果。这个偶然的发现使风格转换研究领域的兴趣激增。迭代优化方法(Gatys,Ecker和Bethge 2015; 2016; Li和Wand 2016)生成可以很好地在任意风格空间和内容空间之间进行插值的艺术图像。但是由于其迭代性质,这些方法通常很慢,需要数百个更新步骤,并且对于在产品中进行部署不切实际。经过感知损失训练的前馈神经网络(Johnson,Alahi和Fei-Fei,2016年; Dumoulin,Shlens和Kudlur,2017年; Zhangand Dana,2017年)克服了速度问题,通常会产生令人满意的艺术效果。但是,好的质量仅限于单个或少量的风格图像,从而牺牲了原始方法的灵活性。特征匹配方法(Huang and Belongie 2017; Sheng et al.2018)实时实现任意风格转换,但是与上述方法相比,这些模型是以牺牲风格转换质量为代价的。
为了解决这些问题,我们认为使用纯粹的迭代优化方法或单步前馈逼近来实现速度,灵活性和质量之间的三路权衡都是不平常的。 在这项工作中,我们试图找到一种算法,该算法可以通过少量甚至可以忽略的后期处理更新步骤快速适应任何样式,从而使适应的模型保持较高的效率和令人满意的生成质量。
具体来说,我们提出了一种新颖的风格转换算法,称为MetaStyle,该算法将快速适应性需求表述为双层优化,可以通过最近的元学习方法(Finn,Abbeel和Levine 2017; Nichol,Achiam和Schulman 2018)解决。 这种独特的问题表达方式鼓励模型学习内容图像的无风格表示形式,并仅需很少的更新步骤即可生成新的前馈模型,从而高效地生成单个样式的高质量样式转换图像 。 从另一个角度来看,这种表达方式也可以被认为是为基于vanilla优化的方法(Gatys,Ecker和Bethge 2016)找到了一种与风格无关的输入,但是却更有效地传递了风格。
我们的模型是使用神经网络实例化的。 网络结构的灵感来自于发现(Dumoulin,Shlens和Kudlur 2017),发现实例规范化层(Ulyanov,Vedaldi和Lempit-sky 2017)中的缩放和移动参数专门针对特定样式。 相反,与先前的工作不同,我们的方法隐式地强制参数查找无样式特征,以便快速适应模型并保持模型大小的简约性。 经过训练的MetaStyle模型具有与Johnson,Alahi和Fei-Fei(2016)中描述的参数数量大致相同的参数,仅需10万步训练步骤。
与现有的神经风格转换方法相比,通过定性和定量分析的综合实验表明,该方法在速度,灵活性和质量之间取得了良好的折衷。 图1显示了使用所提的风格转换的示例结果。
论文的贡献包括三个方面:
- 我们提出了一种新的风格转换方法,称为MetaStyle,以实现速度,灵活性和质量的三方面权衡。 据我们所知,这是第一篇将风格转换表述为双层优化的论文,因此该模型只需少量更新即可轻松适应新风格,从而在保持简约的同时产生高质量的结果。
- 所提出的方法提供了一种无风格表示,仅需很少的迭代就可以适应快速前馈的高质量风格转换模型,从而为一种新风格训练高质量模型的成本几乎可以忽略不计。
- 所提出的方法产生了一种与风格无关的表示形式,对比基于vanilla优化的风格转换方法,它具有更好的收敛性。
2. 相关工作:
2.1 神经风格转换:
通过利用预训练的VGG模型(Simonyan和Zisserman 2014),Gatys,Ecker和Bethge(2016)首次提出明确区分内容和风格:该模型具有涉及二阶文法的特征匹配损失(后称感知损失)和迭代地更新输入图像(通常进行数百次迭代)以生成高质量的风格转换结果。为了克服速度限制,Johnson,Alahi和Fei-Fei(2016)招募了图像转换网络来生成风格化的结果,这些结果直接接近最佳解决方案。 Ulyanov等人(2016)的并发工作使用多分辨率生成器网络实例化了一个类似的想法,并通过应用Julesz(Zhu,Wu和Mumford 1998)进一步改善了生成图像的多样性(Ulyanov,Vedaldi和Lempitsky 2017)。朱,刘和吴2000)。请注意,使用这些方法中的任何一种的每个训练模型都专门针对单个风格。
已经做出了很大的努力来改善神经风格转换。 Li and Wand(2016)使用马尔可夫随机场(MRF)对过程进行建模,并介绍了该任务的MRF损失。 Li等(2017a)发现训练损失可以在最大均值差异框架中进行转换,并推导其他一些损失函数来优化内容图像。 Chen等(2017)在模型训练期间为每种风格共同学习了风格库。 Dumoulin,Shlens和Kudlur(2017)修改了实例规范化层(Ulyanov,Vedaldi和Lempitsky 2017)以适应每种风格。 Zhang和Dana(2017)提出使用CoMatch层来匹配二阶统计量以简化学习过程。尽管这些方法针对一组受约束的风格实时生成高质量的转移结果,但它们仍然缺乏转移到任意风格的概括能力。此外,这些方法有时会引入与所学风格数量成正比的其他参数。
最近的工作集中在更通用的方法上。首次引入了基于补丁的风格交换层(Chen和Schmidt,2016年),以内容匹配补丁替换为最匹配的风格特征补丁,并采用了折衷的逆网络进行快速逼近。引入了自适应实例归一化层(Huang和Belongie 2017),以通过风格特征统计量缩放和移动归一化的内容特征,并充当编码器-解码器体系结构的瓶颈,而Li等人(2017b)同样采用了递归白化和多级预训练自动编码器体系结构中的颜色变换。最近的作品包括以多尺度方式集成的类似ZCA的风格装饰器和沙漏网络(Sheng等人,2018),以及经过训练可生成图像转换网络参数的元网络(Shen,Yan,和Zeng(2018)。这些方法尽管高效且灵活,但通常会损害图像生成质量,尤其是对于未观察到的风格。相比之下,提出的模型可以快速适应任何风格,而不会像使用Johnson Johnson,Alahi和Fei-Fei(2016)这样的快速逼近方法牺牲速度或图像质量。
此外,我们的模型也是简约的,仅使用10万次迭代就需要与Johnson,Alahi和Fei-Fei(2016)大致相同数量的模型参数。 相比之下,例如,Ghiasi等。 (2017)扩展了条件实例规范化框架(Dumoulin,Shlens和Kudlur 2017),但需要预训练的Inception-v3(Szegedy等人2016)才能预测单个样式的参数。 该模型需要更新400万步,使训练负担重。
2.2 Meta-learning:
元学习已成功应用于数次学习中,其早期工作可追溯到1990年代。在这里,我们只回顾一个集中影响我们工作的初始化策略的分支(Franceschi et al.2018)。 Rav和Larochelle(2016)首先采用LSTM网络作为元学习器来学习优化程序。 Finn,Abbeel和Levine(2017)提出了模型不可知的元学习(MAML),以便先前在各种任务上学习的模型可以快速适应新任务,但是该方法需要计算二阶梯度。因此为了正确推导元目标的梯度,消耗了大量的计算能力,虽然对一阶方法进行的测试也保证性能。
Nichol,Achiam和Schulman(2018)在他们的工作之后将MAML推广到了系列算法并将其扩展到Reptile。Reptile将顺序一阶梯度与高级优化器(例如Adam)结合在一起(Kingmaand Ba 2014),从而更容易实现,训练时间更短且性能不变。最近的一项工作(Shen,Yan和Zeng 2018)使用额外的一大组全连接层对风格转换的过程进行了建模,从而可以预测图像转换网络的参数。相比之下,本文提出的方法仍然与单一参数集训练和自适应保持简约。
正如我们将在4.1节中所展示的那样,元网络实际上是所提出的双层优化框架中的一种特殊情况。据我们所知,本文是第一个在初始化策略分支中将神经风格转换明确定义为双层优化问题的文章。
3. 背景:
在详细介绍提出的模型之前,我们首先介绍两个基本的构建模块,即感知损失和一般的双层优化问题,这为提出的方法奠定了基础。
3.1 风格转换和感知损失:
给定图像对(Ic,Is),风格转换任务旨在找到一种以Is风格保留Ic内容的“最佳”解决方案Ix。 Gatys,Ecker和Bethge(2016)提出使用经训练的VGG特征来测量具有新定义的损失的最优性,随后将其修改并命名为感知损失(Johnson,Alahi和Fei-Fei 2016)。 感知损失可以分解为两部分:内容损失和风格损失。
将在第i层的VGG特征定义为φi(·),内容损失lconcent(Ic,Ix)用L2范数定义,如下所示:
其中,Ni代表第i层特征个数。
风格损失lstyle(Is,Ix)是在不同层的VGG特征的Gram矩阵中的F-范数之和,公式如下:
其中,S表示预定义的层的集合,G表示格拉姆变换。
变换表示如下:
对于一个具有形状C×H×W的三维张量x,其中ψ(·)将x调整为C×HW。
感知损失l(Ic,Is,Ix)由两部分的加权组成:
3.2 双层优化:
我们用Franceschis等简化的形式将风格转换问题总结为双层优化问题。
其中,E是外部目标,Lθ是内部目标。在可微分的Lθ下,可以用∇Lθ= 0代替约束。但是,通常不存在wθ的封闭形式解,并且逼近最佳解的一种实用方法是 用梯度动力学代替内部问题,即
Ψ初始化w0,δ为步长,T为最大步数。 Franceschi等人(2018)证明了在特定条件下等式6的收敛性。 尽管他们不是使用双层优化来建模问题,而是使用直观的动机来建模,但Finn,Abbeel和Levine(2017)以及Nichol,Achiam和Schulman(2018)都使用了一致性映射,而前者计算的全梯度为 θ可以优化外部目标,而后者仅是一阶近似梯度。
4. MetaStyle:
在本节中,我们首先详细介绍了所提出框架的原因和公式,解释了设计选择并讨论了与先前方法的关系。然后,给出了网络体系结构,训练协议和详细算法。
4.1 问题表述:
MetaStyle的任务是在神经样式传递中找到三步权衡,速度,灵活性和质量。 但是,要达到这种平衡,我们认为仅使用迭代优化方法或仅采用单步前馈逼近都是不平凡的。 为了解决这一挑战,我们考虑了一种新方法,在该方法中,我们首先学习一种与风格无关的表示形式,并在后期处理阶段允许对这种中性表示形式进行有限的更新步骤以适应新风格。 期望该模型在改编后应有效地生成风格化的图像,具有足够的通用性以适应任何新风格,并产生高质量的结果。
为此,我们采用了带有内容图像输入的图像转换网络(Johnson,Alahi和Fei-Fei2016),并将整个神经风格转换问题转换为双层优化框架(Franceschi et al.2018)。 如公式6中所述,我们选择将θ建模为网络初始化,然后将自适应参数wT标记为ws,T,以强调自适应的样式.T被限制为较小,通常在1-5之间。 内部和外部目标均被设计为跨数据集平均的感知损失。 但是,如元学习中所述(Finn,Abbeel和Levine 2017年; Nichol,Achiam和Schulman 2018年),内部目标使用以θ初始化的模型并且仅优化训练集中的内容,而外部目标则尝试 归纳为验证集中的内容。Ψ是一致映射。 正式地,问题可以表述为
其中M(·;·)表示我们的模型,δ表示内部目标的学习率。 相对于验证集中的风格和内容图像均采用外部目标Ec,s的期望,而仅针对训练集中的内容图像采用内部目标Ec的期望。 这种设计允许改编的模型专门用于单一风格,但仍保持足够通用的初始化。 注意,对于外部物镜,Ws,T隐含地取决于θ。 从本质上讲,该框架学习的初始化M(·;θ)可以有效地适应M(·; Ws,T),并为任意风格保留高图像质量。 图2显示了所提的框架
框架中明确的训练-验证分离强制了风格转换模型泛化到未观察到的内容图像而又不过度适合训练集.MetaStyle限制了梯度动力学计算中的步数,以鼓励快速适应任意风格,并同时选择图像转换网络,因为其效率高,传输质量高。 这些特征有助于在速度,灵活性和质量之间进行权衡。
现在,我们讨论MetaStyle与其他方法的关系。
Relation to Johnsonet al. (2016):Johnson等人的方法找到适合于给定风格的图像转换模型,从而通过
式8为仅针对内容的期望。 相反,在等式7中,我们寻求一个特定的模型初始化θ,它不是用于样式传输的最终参数,但仅使用少量的后期处理更新就可以适应任何其他样式。 假设存在一个隐式的,未观察到的中性样式,则可以将MetaStyle视为学习无样式的图像转换。
Relation to Gatyset al. (2016):从内容图像开始,Gatys等人使用迭代更新找到了感知损失的最小化方法。 从这个迭代更新的角度来看,MetaStyle可以看作是学习为优化算法找到一个良好的起点。 这种学到的转换可以生成与风格无关的图像,同时可以大大减少更新步骤。
Relation to Shenet al. (2018):Shen等人的方法是所提出的双层优化框架的特例,其中T = 0,Ψ是高度非线性的变换,由θ参数化,该θ使用样式图像来预测另一个图像变换网络的参数。
4.2 网络结构,训练和算法:
我们的网络架构很大程度上遵循Dumoulin,Shlens和Kudlur(2017)中描述的图像转换网络的架构。 但是,与原始体系结构不同,最后一个卷积层的输出未进行规范化,并使用Sigmoid函数激活以将其压缩为[0,1]。上采样卷积首先对输入进行上采样然后执行卷积,并且使用反射填充来避免 棋盘效果(Zhang和Dana,2017年)。 受(Dumoulin,Shlens和Kudlur 2017)的发现启发,实例规范化层中的缩放和移动参数专门针对特定风格,我们在每个卷积层之后添加了实例规范化层(最后一个除外)。 有关图形说明,请参见图3。 此设计强制实例规范化层中的参数从隐式,不可观察的中性样式中学习,同时保持模型大小不变。
对于训练,我们使用小批量学习来近似内部和外部目标。 内部目标是通过从训练数据集中采样并按一个样式计算的几批来近似的,而外部目标是通过样式批次来近似的,其中每种样式都会导致从验证数据集采样的内容批次计算出的感知损失。 该问题可由MAML解决(Finn,Abbeel和Levine,2017年),并在算法1中归纳总结。训练后,可以将θ用作初始化,以最小化等式8,以使模型适合于单个样式或提供模型。 基于优化的方法的起点M(Ic;θ)