Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN

该博客探讨了一种利用增强的Residual U-net和Auxiliary Classifier GAN进行风格迁移的方法,特别是动漫素描风格。网络结构包括生成网络和判别网络。生成网络通过VGG16/19的fc1层提取风格特征,以解决U-net的懒惰层问题,引入残差块和额外的损失函数来确保中间层的学习。判别网络采用DCGAN结构,目标函数用于区分真实和生成的图像。实验结果显示,这种方法能有效改善风格转换的质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网络结构

本文的GAN网络结构为:

这里写图片描述

生成网络的输入为需要风格转换的图像即input,以及风格特征.采用VGG16/19的fc1层,提取风格图像的特征,风格特征为4096维的向量.

生成网络结构和目标函数

文章试验发现,如果u-net可以使用底层的网络学习到特征,那么高层的网络就不会去学习,如图4所示,u-net网络的输入输出都为同一张图像,也就是实现复制图像的功能.由于输入输出是相同的,损失函数会立刻变为0.这是因为encoder的第1层发现可以通过skip connection, 简单地直接传递所有的特征到decoder的最后一层,以最小化损失函数.这样,无论训练多少次,中间层的网络都没有任何梯度值,也就是中间网络没有作用了.

这里写图片描述

对于u-net的decoder层,特征可以来源于更高的层或者skip connection层.在训练的时候,这些层可以选择别的层的输出,这可以通过非线性函数实现,以最小化损失函数.

在图4的实验中,采用高斯随机初始化u-net网络参数,encoder的第1层的输出完全足够表达输入特征,而encoder的第2到最后一层的输出更多的是噪声特征,因此网络放弃了这些noisy feature.

对于一个新的初始化的u-net网络,如果直接将4096维的特征向量到u-net的中间层,那么这些层会非常noisy. 如上面分析,如果中间层网络噪声化严重,那么u-net网络会放弃这些层,结果就是,这些层不能得到任何的梯度,我们将这些层称为lazy layer.

受LeNet,GooLeNe的启发,我们使用残差网络,如图5.

这里写图片描述

将额外的loss添加到可能为lazy的层,那么无论这些层多么noisy, unet都不会放弃这些网络层,并且在整个训练过程中,这些层都会得到稳定的梯度. 这样,便可以在中间层添加一些含有特征信息的,甚至noisy hint的特征.本文实现了两个额外的loss,分别在Guide decoder 1和Guide decoder 2中,以消除中间层的梯度消失.

生成网络损失函数定义为:

这里写图片描述

文章还提出,对于色彩分布,往中间层添加灰度特征会有所改善,因此使用函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值