图像风格化——感知损失(perceptual loss)(2016)

本文详细介绍了图像风格迁移的原理和方法,包括基于在线和离线优化的慢速与快速算法。慢速方法利用VGG网络的Gram矩阵表示风格,而快速方法通过预训练模型实现高效风格迁移。内容损失和风格损失在重建过程中起关键作用,确保迁移后的图像既保留内容又具有目标风格。此外,通过调整不同损失的权重,可以平衡内容与风格的呈现。实验结果显示,结合感知损失的优化方法可以生成更接近目标图像的高质量结果。

[paper]Perceptual Losses for Real-Time Style Transfer and Super-Resolution(2016)

Perceptual Losses for Real-Time Style Transfer and Super-Resolution:Supplementary Material

图像风格化

风格迁移简单的理解为,将一张图像在保存原图大致的纹理结构的同时,具有别的图像的风格。即对图像加了一个风格滤镜。

图像风格化(Neural Style Transfer)是将一张照片渲染成有艺术风格的画作。图像风格化算法的输入有二,分别是内容图和风格图,输出有一个,为风格迁移后的结果图。

图像风格化算法是一个图像渲染的过程。在图形学的非真实感图形学领域,图像艺术风格技术可以大体分为:

  • 基于笔触渲染的方法(Stroke-based Rendering)
    基于笔触渲染的方法,在算法设计之前首先会确定某一种风格,即每一个基于笔触渲染的方法一般只对应于一种风格,而不能简单的扩展到其他风格的迁移。
  • 基于图像类比的方法(Image Analogy)
    图像类比方法需要很多成对的原图和风格结果图作为训练集,然后对所有风格图像找到这些成对的数据貌似不太现实。
  • 基于图像滤波的方法(Image Filtering)
    通过图像滤波的方法速度快、效果稳定,可满足工业界落地的需求,但是基于图像滤波方法能模拟出来的风格种类很有限。

在基于统计学的计算机视觉领域,图像艺术风格渲染一般被认为是纹理合成的一个扩展问题。纹理合成是给定一个源纹理图,然后取合成更多类似的纹理结构,最终组成一个大的纹理图。风格迁移中的风格图可以看成是一种纹理,由此,假如我们在合成纹理图的时候去刻意保留一些语义信息,就是风格迁移。

纹理建模方法(Visual Texture Modelling),主要研究如何表示一种纹理,是纹理合成技术的核心。纹理合成方法可以分为两大类:

  • 基于统计分布的参数化纹理建模方法(Parametric Texture Modelling with Summary Statistics)
    基于统计分布的参数化方法主要将纹理建模为N阶统计量
  • 基于MRF的非参数化纹理建模方法(Non-parametric Texture Modelling with MRFs)
    基于MRF的方法是用patch相似度匹配进行逐点合成。

纹理建模方法解决了对风格图中的风格特征进行建模和提取。把风格图像中的风格提取之后,和内容混合还原成一个相应的风格化需要图像重建(Image Reconstruction)。

图像重建解决如何将给定的特征表达重建还原为一张图像。图像重建的输入是特征表达,输出是特征表达对应的图像。与通常的输入图像提取特征的过程相反,是把某个特征逆向重建为原来的图像,重建结果不唯一。图像重建算法分为:

  • 基于在线图像优化的慢速图像重建方法(Slow Image Reconstruction based on Online Image Optimisation)
    在图像像素空间做梯度下降来最小化目标函数。由随机噪声作为起始图,然后不断迭代改变图片的所有像素值来寻找一个目标结果图 x ′ x' x,这个目标结果图的特征表达和作为重建目标的目标特征表达 Φ ( x ) \Phi(x) Φ(x)相似,即像素迭代的目标为 Φ ( x ′ ) ≈ Φ ( x ) \Phi(x') \approx \Phi(x) Φ(x)Φ(x)。由于每个重建结果都需要在像素空间进行迭代优化很多次,这种方式是很耗时的(几百乘几百的图需要几分钟),尤其是当需要的重建结果是高清图的时候,占用的计算资源以及需要的时间开销很大。
  • 基于离线模型优化的快速图像重建方法(Fast Image Reconstruction based on Offline Model Optimisation)
    设计一个前向网络,用数据驱动的方式,喂给它很多训练数据去提前训练它,训练的目的是给定一个特征表达作为输入,这个训练好的网络只需要一次前向就能输出一张重建结果图像。如果再融入生成对抗网络的思想,会进一步提升效果。

以前的图像重建主要是用来理解某些特征表达的,图像重建提供了一个可以加深特征理解的途径。假如说给定一张猴子的某个图像分类特征,重建出来的不同结果中猴子的五官位置均正确保留,而其他的比如颜色等不同结果不太一样,那么可以理解成次分类网络在分类猴子这个类别的图像的时候,会参考五官的位置来与其它类别进行区分。
在这里插入图片描述
通过重建预训练的分类网络中的高层特征,发现重建结果保留了高层语义信息,而摒弃了低层的颜色等信息。加入在图像重建时加上保留给定风格信息的约束,就可以让重建出的结果既有想要的内容图的高层语义信息,又有给定风格图像中包含的风格信息。图像风格化迁移由此诞生。

在这里插入图片描述
按照图像风格化迁移算法=图像重建算法+纹理建模算法,图像风格化可以分为基于在线优化的慢速图像风格迁移算法(Slow Neural Method Based On Online Image Optimisation)和基于离线模型优化的快速图像风格化迁移算法(Fast Neural Method Based On Offline Model Optimisation)的方法。

基于在线优化的慢速图像风格迁移算法(Slow Neural Method Based On Online Image Optimisation)

  • 基于统计分布的参数化慢速风格化迁移算法(Parametric Slow Neural Method with Summary Statistics)
    • 基于CNN的纹理建模方法(Texture Synthesis Using Convolutional Neural Networks)是在图像经过预训练的VGG网络时的特征表达(feature map)上计算Gram矩阵,利用得到的Gram矩阵来表示一种纹理。Gram矩阵的计算方式是先将预训练VGG某一层的特征表达 F l ( I ) F^l(I) Fl(I) R C × H × W R^{C \times H \times W} RC×H×Wreshape成 R C × ( H W ) R^{C \times (HW)} RC×(HW),然后用reshape后的特征表达和其转置矩阵相乘 [ F l ( I ) ] × [ F l ( I ) ] T [F^l(I)] \times [F^l(I)]^T [Fl(I)]×[Fl(I)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值