论文解读(04)

Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Justin Johnson, Alexandre Alahi, Li Fei-Fei

本文研究了图像转换的问题。在该领域中现有的方法大致有二:一种是使用输出图像与真实图像的per-pixel loss(逐像素损失)训练前馈CNN,第二种是 设计并优化了一种 所谓的perceptual loss(感知损失)来生成高质量图像,该种损失是基于预训练模型对图像所提取的高级特征所定义的。
而本文的工作结合了以上两种方法,使用perceptual loss来前馈CNN来解决图像转换问题。与基于优化的生成图像方法相比,本网络可以在得到相当质量的结果的同时,在速度上提升3个数量级。

简介:

许多经典问题都可以视为图像转换问题,即系统接收若干输入图像,将其转换为一个输出图像。例如,去噪,超分辨率重构,着色等图像处理任务,都是将一个退化的图像,转换为一个高质量彩色图像。对于计算机视觉领域中的语义分割,深度估计等任务,输入一个彩色图像,输出则是图像的场景语义或几何信息的编码。
对于图像转换问题,一种解决方法是基于输出图像与真实图像之间的per-pixel loss,使用有监督的手段训练一个前馈CNN。
但是per-pixel loss的弊端是无法捕获输出图像与真实图像之间的感知层面的差异,例如对于两张完全相同的图像,将其中一张图像整体偏移一个像素,尽管它们在感知层面上仍然几乎完全相同,但是它们的per-pixel loss却已发生十分显著的增加。
另外一些方法,通过最小化perceptual loss,来优化输出图像的数据,最终生成输出高质量图像。但该方法的弊端是效率低下,实时性差。
本文的方法结合以上两种方法的优点,采用了前馈CNN,并且使用图像高级特征的perceptual loss作为损失函数,而图像高级特征则使用预训练模型采集。perceptual loss在度量图像相似性方面比per-pixel loss更具鲁棒性。

技术概要

该系统包括两个部分:一部分是图像转换网络fWf_WfW,另一部分是损失网络ϕ\phiϕϕ\phiϕ用于定义不同的损失函数l1,...,lkl_1,...,l_kl1,...,lk。图像转换网络是一个深度残差CNN,其参数为权重WWW,,对于输入图像xxx,其输出图像为y^=fW(x)\hat{y}=f_W(x)y^=fW(x).
每一个损失函数的计算结果都为一个标量值li(y^,yi)l_i(\hat{y},y_i)li(y^,yi),其度量了输出图像y^\hat{y}y^与目标yiy_iyi的差异。
使用SGD算法训练网络,得到最优解:
W∗=argmin⁡WEx,{yi}[∑i=1λili(fW(x),yi)] W^*= \rm{arg} \min_{W}\bf{E}_{x,\left\{y_i\right\}}[\sum_{i=1}\lambda_i l_i(f_W(x), y_i)] W=argWminEx,{yi}[i=1λili(fW(x),yi)]
利用损失网络ϕ\phiϕ所定义的损失函数,杜绝了per-pixel loss的缺点,更好地度量了图像之间的感知与语义差异,其关键思想在于预训练的CNN模型已经学会了编码图像中的感知和语义信息,这些信息则是我们的perceptual loss 函数恰恰要度量的信息。因此,本文采用了预训练的图像分类网络(VGG16)作为损失网络.
损失网络ϕ\phiϕ用于定义特征重构损失lfeatϕl^{\phi}_{feat}lfeatϕ和风格重构损失lstyleϕl^{\phi}_{style}lstyleϕ。分别度量图像在内容与风格上的差异。对于每个输入图像xxx,有内容目标ycy_cyc,风格目标ysy_sys,对于风格迁移任务,内容目标ycy_cyc就是输入图像xxx本身,输出图像y^\hat{y}y^应该整合内容x=ycx=y_cx=yc,以及风格ysy_sys。每个风格目标需要单独训练一个网络。
对于超分辨率重构任务,输入图像是一个低分辨率的图像,内容目标是真实的高分辨率图像,不需要风格目标。

技术细节

1.图像转换网络

对于图像转换网络,其架构与Radford的实现大致相同,不采取任何的池化层,取而代之使用步幅和微步幅卷积分别进行上采样和下采样。网络还包含有5个残差块,除了最后的输出层之外,所有的非残差卷积层都后接有空间batch normalization 和 ReLU操作,最后的输出层使用一个缩放的tanh来确保输出图像的像素值在[0,255]内,除了第一层与最后一层使用9x9大小的卷积核外,其余卷积层均使用3x3的卷积核。

1.1转换网络的输入与输出

对于风格迁移,输入与输出图像大小均为3X256x256。对于超分辨率重构,则存在一个上采样因子fff,输出为高分辨率图像3x288x288,输入为低分辨率图像3∗288/f∗288/f3*288/f*288/f3288/f288/f

1.2转换网络的下采样与上采样

对于上采样因子为fff的超分辨率重构,使用了后接步幅为1/21/21/2log⁡2f\log_2{f}log2f卷积层。
对于风格迁移,先使用两个步幅为2的卷积层进行下采样,然后连接有若干残差块,最后再使用两个步幅为1/21/21/2的卷积层进行上采样。
这样做(先下采样再上采样)的好处是:
(1)在计算量上,尺寸为3x3xc卷积核遍历CxHxW的图像需要9HWC2\rm{9HWC^2}9HWC2次加乘运算。其运算量与3x3xDC作用在DCxH/DxH/D图像上的运算量一样,因此在下采样后,使用更大的网络,却只需花费相同的计算量。
(2)3x3的卷积可以将感受野的大小扩大2倍,将算上因子为D的下采样操作后,感受野可以增大2D倍。

2.损失网络

2.1特征重构损失

设输入图像为x,则网络ϕ\phiϕ的第jjj层激活输出为ϕj(x)\phi_j(x)ϕj(x),若jjj为卷积层,则ϕj(x)\phi_j(x)ϕj(x)为一个尺寸为Cj∗Hj∗WjC_j*H_j*W_jCjHjWj的特征图。定义特征重构损失为两个特征图之间的欧式距离:
lfeatϕ,j(y^,y)=1CjHjWj∥ϕj(y^)−ϕj(y)∥22 l^{\phi,j}_{feat}(\hat{y},y)=\frac{1}{C_jH_jW_j}\begin{Vmatrix} \phi_j(\hat{y})- \phi_j(y)\end{Vmatrix}^2_2 lfeatϕ,j(y^,y)=CjHjWj1ϕj(y^)ϕj(y)22
当从网络高层进行重构,图像语义内容与整体空间结构得以保留,而色彩,纹理,精确边缘则被适当摒弃。

2.2风格重构损失

将网络ϕ\phiϕ的第jjj层的三维特征图张量ϕj(x)\phi_j(x)ϕj(x)重整为大小为Cj∗HjWjC_j*H_jW_jCjHjWj二维张量ψ\psiψ,则定义特征图ϕj(x)\phi_j(x)ϕj(x)的Gram矩阵为
Gjϕ(x)=ψψT/CjHjWj G^{\phi}_{j}(x)=\psi \psi^T/C_jH_jW_j Gjϕ(x)=ψψT/CjHjWj
则风格重构损失定义为输出图像与风格目标图像在网络ϕ\phiϕ的第jjj层特征图的Gram矩阵的squared Frobenius范数(L2L_2L2范数):
lstyleϕ,j(y^,y)=∥Gjϕ(y^−Gjϕ(y))∥F2 l^{\phi,j}_{style}(\hat{y},y)=\begin{Vmatrix} G^{\phi}_{j}(\hat{y}-G^{\phi}_{j}(y)) \end{Vmatrix}^2_F lstyleϕ,j(y^,y)=Gjϕ(y^Gjϕ(y))F2
选取ϕ\phiϕ中多个层次的风格特征来来综合判定,则定义lstyleϕ,J(y^,y)l^{\phi,J}_{style}(\hat{y},y)lstyleϕ,J(y^,y)为各层风格重构损失的总和,其中j∈Jj\in JjJ

另外

为了使输出图像的空间上较为平滑连续,参考前人的工作,采用了total variation regularizer lTV(y^)l_{TV}(\hat{y})lTV(y^).

<think>好的,我需要处理用户的查询,他们想要了解如何解读论文或者论文的详细解析方法。首先,我得明确用户的需求,可能是学生或研究人员在学术写作或阅读时需要指导。 根据任务要求,得先调用网络搜索工具来查找相关资料。可能的关键词包括“论文解读方法”、“如何分析学术论文”、“论文解析步骤”等。需要确保覆盖有效的方法论,比如结构分析、重点部分识别、批判性思维的应用等。 接下来,整合搜索到的信息。通常,论文解读的方法包括预览结构、深入阅读各部分、做笔记、验证结论和交叉引用。每个步骤需要详细说明,比如在阅读摘要时抓住核心问题,方法部分关注实验设计,结果部分区分数据与解释等。同时,要强调批判性评估,比如检查方法的合理性和结论的逻辑性。 注意格式要求,避免使用第一人称和步骤词汇。需要分点说明,每个方法或步骤之间换行。如果有代码或公式,要按规范格式,但这个问题可能不太涉及这些内容。 最后,生成相关问题部分,必须基于用户的问题和回答内容。可能的问题包括论文结构分析工具推荐、提升批判性阅读的方法、高效笔记技巧等。要确保三个问题,并且格式正确,标题在同一行,使用规定的符号。 需要检查所有要求是否满足:整合检索内容,分点清晰,无第一人称,正确的问题部分格式。确保回答实用且可操作,帮助用户系统化地解读论文。</think>针对论文解读与解析的实践方法可分为系统性阅读和批判性分析两个维度。下列方法结合了学术阅读规范和科研实践经验: **结构拆解法** 论文标准结构包含摘要、引言、方法、结果、讨论等模块。解读时建议采用分层阅读策略: - 摘要部分提取研究问题、方法创新点、核心结论(建议用时占比10%) - 引言部分追溯研究背景与理论缺口(建议用时占比20%) - 方法章节分析实验设计合理性,重点关注样本选择标准、变量控制方法、统计工具 - 结果部分区分原始数据与作者解释,注意图表中显著性标记(如$p<0.05$) - 讨论章节对比前人研究,识别结论推导逻辑链 **关键要素标注系统** 建立符号体系标记重点内容: - 红色:核心假设与研究问题 - 蓝色:方法论创新点 - 绿色:争议性结论或未验证推测 - 黄色:可复用的实验设计模板 **论证有效性评估矩阵** 创建包含以下维度的评估表格: | 评估维度 | 评分标准(1-5分) | 备注 | |----------------|------------------|------| | 理论框架完整性 | | | | 数据支撑强度 | | | | 方法可复现性 | | | | 结论推广价值 | | | **可视化解析工具** 使用思维导图软件构建论文逻辑关系图,推荐采用分层结构: ``` 理论背景 ├─已有研究 └─研究缺口 方法论 ├─实验设计 └─数据分析 结论网络 ├─直接推论 └─潜在应用 ``` **批判性阅读技巧** - 识别作者预设:通过文献综述引用模式分析学术立场 - 验证数据三角测量:检查是否采用多源数据相互验证 - 评估效应量而非仅关注统计显著性,计算$d=\frac{\mu_1-\mu_2}{\sigma}$等指标 - 追踪参考文献中的对立观点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值