文章目录
摘要
提出了一种基于特征变化的通用的风格迁移模型。方法的关键是把特征变化,白化和着色过程嵌入到了一个图片的重构网络中。核心步骤 whitening and coloring transforms(WCT)是把内容图片的协方差矩阵和风格图片的协方差矩阵对齐,协方差矩阵用作风格迁移的原理和之前介绍的neural style中的Gram矩阵类似。
介绍和相关工作
主要就是说之前方法存在的问题:对于每种风格需要单独训练网络,即使做到对任意风格的迁移,也是以较大的计算量或者较差的生成效果为代价。这篇文章提出了一种实现通用风格迁移模型的有效方法,风格迁移的任务被定义成了一个图片的重构过程,只不过在中间层增加了一些操作:在每个中间层,主要目标是转换提取的内容图片特征,使得它们与同一层提取出的风格图片特征具有某种相同的统计特征,作者发现这些特征上的经典信号白化和着色变换(WCT)能够毫不费力地实现该目标。
其实从这里来看,方法的整体思路和之前介绍的style-swap与AdaIN的方法比较相似:
图片空间–>特征空间–>特征转换(融合)–>图片空间
其中style-swap使用基于patch的风格相似度进行特征融合,AdaIN采用将内容和风格图片在IN上的均值和方差对齐的方法进行特征融合,而本文则是通过协方差矩阵对齐的方法进行特征转换(融合)。
接下来是总的概括了文章的工作:
1、训练图片重构网络。如图(a),把训练好的VGG19当作编码器,然后训练一个对称的解码器用作还原图片。对不同的Relu1…Relu5层一共训练了五个对应的解码器,来对VGG不同卷积层提取的特征进行还原。
2、如图(b),WCT层通过白化和着色操作,把内容图片由VGG提取出的特征的协方差矩阵与风格图片对齐,转换后的特征通过之前训练好的重构网络即可生成风格迁移后的图片。
3、图(b)是单层WCT的过程,作者一共选取了VGG的五个中间层,并训练了对应的解码器,不同层提取的是不同层次的特征,作者提出了合理利用这五个解码器的方法。如图©,从低层Relu5提取的特征开始还原,每次把上一步的生成图片作为下一层的内容图片。
所以文章接下来的主要内容也就围绕这三点进行:
1、重构网络如何训练
2、WCT层的具体操作
3、为什么从低层Relu5的特征开始风格迁移
另外,本文一个比较突出