深度学习的奇幻之旅:从图像风格迁移到文本生成及社会影响
1. 神经网络风格迁移的原理
在深度学习领域,神经网络风格迁移是一项令人瞩目的技术。不过,尽管我们理解Gram矩阵在测量什么的数学原理,但这并不能帮助我们明白为何该技术能捕捉到我们所说的“风格”这一难以捉摸的概念。原始的神经风格迁移论文以及后续更详细的研究,都未解释作者是如何想到这个主意以及它为何如此有效。
在深度梦境中,我们从一张图像开始,通过改变像素来处理它。但如果在神经迁移中也采用同样的方法,从一张图像而非噪声开始,图像很快就会失真。最小化Gram矩阵之间的差异会使输入图像发生巨大变化,使其朝着我们想要的风格转变,但在此过程中会丢失图像的内容。
解决这个问题的方法是从噪声开始,同时添加一个内容损失项来保留原始图像的本质。除了施加风格损失(惩罚输入与风格参考不匹配的情况,通过Gram矩阵的差异来衡量),我们还施加内容损失(惩罚输入与基础图像差异过大的情况)。通过将这两个误差项相加(通常给予不同的权重),噪声中的像素会发生变化,使其同时更接近我们想要修改的图像的颜色和我们想要的风格。
收集内容损失很简单。我们将基础图像(如青蛙图像)输入网络,保存每个滤波器的激活图。之后,每次向网络输入新图像时,内容损失就是该输入的滤波器响应与基础图像的滤波器响应之间的差异。
2. 风格与内容的融合
具体操作流程如下:
1. 数据准备 :将风格参考图像输入网络,保存每一层中每对滤波器的Gram矩阵;找到想要进行风格化的基础图像,将其输入网络并保存每个滤波器产生的特征图。
2. 开始处理
超级会员免费看
订阅专栏 解锁全文
522

被折叠的 条评论
为什么被折叠?



