Perceptual Losses for Real-Time Style Transfer and Super-Resolution阅读（一）

最新推荐文章于 2025-06-18 01:00:00 发布

原创最新推荐文章于 2025-06-18 01:00:00 发布 · 599 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

创新实训专栏收录该内容

20 篇文章

订阅专栏

文章解读了《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》，针对实训中风格转换部分，指出该文贡献是实现实时风格转换。对比上一篇文章性能问题，作者建立生成网络。介绍论文网络分为Transform和Loss网络，阐述网络细节设计及原因，还给出具体网络架构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、文章出处

Perceptual Losses for Real-Time Style Transfer and Super-Resolution，arxiv地址：https://arxiv.org/abs/1603.08155。

二、文章内容

因为在实训中只需要做风格转换的部分，并且这篇文章的最大贡献之一也是实现了实时的风格转换。

上一篇阅读的文章，虽然效果好，但对于每一张要生成的图片，都需要初始化，然后保持CNN的参数不变，反向传播更新图像，得到最后的结果。性能问题堪忧。所以在此项工作中作者建立了一个生成网络来保留图片生成的信息，这样每次生成图片就只要进行一次前向传播即可，而不用在进行三四十分钟的训练了。

下面这个网络图是论文的精华所在。图中将网络分为Transform网络和Loss网络两种，在使用中，Transform网络用来对图像进行转换，它的参数是变化的，而Loss网络，则保持参数不变，Transform的结果图，风格图和内容图都通过Loss Net得到每一层的feature激活值，并以之进行Loss计算。

这里的架构值得我们好好学习，为什么作者要这么设计，在作者的文章中说的很好，虽然不是公式描述，但是在直观上也给我们带来了不少收获。

网络细节的设计大体遵循DCGAN中的设计思路：

不使用pooling层，而是使用strided和fractionally strided卷积来做downsampling和upsampling，
使用了五个residual blocks
除了输出层之外的所有的非residual blocks后面都跟着spatial batch normalization和ReLU的非线性激活函数。
输出层使用一个scaled tanh来保证输出值在[0, 255]内。
第一个和最后一个卷积层使用9×9的核，其他卷积层使用3×3的核。

这样设计的主要原因有以下几点

首先的有点是减少了计算量，原文中的描述是：

在计算量一定的情况下，可以使用一个更大的网络。

其次，是使得有效的感受野增大，原文描述如下：

高质量的风格转换需要改变图片的一块地方，那么就要求输出中的每个像素都有输入中的大面积的感受野。

最后，是残差网络的运用。何凯明的残差网络简直神奇。

残差连接可以帮助网络学习到identify function，而生成模型也要求结果图像和生成图像共享某些结构，因而，残差连接对生成模型正好对应得上。

如下，是文章具体的网络架构：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。