一、论文简介
0.论文信息
【ECCV-2016】Perceptual Losses for Real-Time Style Transfer
论文地址:https://arxiv.org/pdf/1603.08155.pdf
1.点睛之处
在上一篇博客中,讲解了Gatys等人是如何分离图片的内容和风格,由此来进行图片的风格转移。但是,他们的方法有一定的缺陷——训练的时间太长,费时比较久。
该论文提出了一种可以实时进行图片风格迁移的方法,首先依赖于预训练的网络(VGG19)提取的高级特征在感知损失函数的作用下来训练图片转换网络,然后将原始图片通过训练好的图像转换网络即可得到风格迁移后的图片。
简单来说,Gatys等人训练的是噪声参数,每更新一次参数都要经过一遍网络,由此导致耗时比较久。这篇论文训练的是网络,将网络训练完成后,即可用训练的好参数处理输入图片,可以很快的得到目标图片。
2.整体结构
该模型中包含两个网络,一个是左边的图像转换网络(需要我们进行训练),一个是右边的定义了几个损失函数的损失网络(已经提前训练好)。
我们训练一个图像转换网络,将输入图像转换成目标图像,使用VGG19来定义感知损失函数,该函数计算输入图像和目标图像之间内容和风格的差异,然后使用该loss值去优化图像转换网络,损失网络在训练过程中保持不变。
因此,我们的深度卷积变换网络(图像转换网络)是使用也是深度卷积网络(损失网络)的损失函数来训练的。
3.图像转换网络
首先对输入进行下采样,然后是几个剩余块,然后进行上采样。
缩小图像(下采样)的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。
下采样原理:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个