Learning Spatial Attention for Face Super-Resolution

Learning Spatial Attention for Face Super-Resolution 2020 CVPR

在这里插入图片描述

题目:基于空间注意的人脸超分辨率学习

1、引言

主要思想
人脸SR与一般的图像SR不同,侧重于人脸关键结构(即人脸成分形状和人脸轮廓)的恢复。这些结构只占图像的一小部分,但通常更难恢复,因为它们表现出较大的像素变化。
一般的图像超分辨率技术在应用于低分辨率人脸图像时,难以恢复人脸的细节结构。最近针对人脸图像定制的基于深度学习的方法通过与人脸分析和关键点预测等附加任务联合训练,获得了更好的性能。然而,多任务学习需要额外的手动标记数据。此外,现有的工作大多只能生成分辨率相对较低的人脸图像(例如128×128),因此其应用受到限制。虽然与这些附加任务的联合训练有助于提高关键人脸结构的重要性,但存在两个主要缺陷,即(1)需要额外的努力来标记附加任务的数据;(2)从LR输入预测人脸先验本身也是一个难题。
本文介绍了一种新的空间注意残差网络(SPARNet),该网络建立在文章中最新提出的人脸注意单元(FAUS)的基础上,用于人脸的超分辨率。具体地说,我们向普通残差块引入了空间注意机制。这使得卷积层能够自适应地引导与关键面部结构相关的特征,并且较少关注那些特征不那么丰富的区域。这使得训练更加有效和高效,注意图的可视化结果表明,即使在分辨率很低(如16×16)的人脸上,我们的空间注意网络也能很好地捕捉到关键的人脸结构。
本文贡献
1、提出了一种高效的人脸超分辨率框架SPARNet。在不依赖任何额外监督(例如,人脸解析地图和地标)的情况下,它在各种指标上实现了最先进的性能。
2、本文提出的FAU是SPARNet的基本构建块,可以引导关键的人脸结构(即人脸分量和人脸轮廓),显著提高人脸超分辨率的性能,并且通过在SPARNet中重复FAU,不同FAU下的空间注意图可以学习聚焦于不同的人脸结构,从而进一步提高SPARNet的性能。
3、引入SPARNetHD生成高分辨率(即512×512)人脸图像,用合成数据训练的模型同样适用于自然LR图像。

背景:1. 一般的图像超分辨率技术在应用于低分辨率人脸图像时,难以恢复人脸的细节结构。
2. 现有的工作大多只能生成分辨率相对较低的人脸图像。
方法:向普通残差块引入了空间注意机制。使卷积层能够自适应引导与关键脸部结构有关的特征,并较少关注那些特征较少的区域,使训练更有效。
结论:对各种指标(包括PSNR,SSIM,身份相似性和标志性检测)的定量比较证明了我们的方法优于当前技术水平。

在这里插入图片描述

图1 一张旧照片上展示了SPARNetHD的示例结果。我们可以看到,SPARNetHD可以很好地恢复人脸的关键部分,还可以生成高分辨率和逼真的纹理。

2、网络结构

SPARNet

SPARNet由三个模块组成,即降级模块、特征提取模块和高级模块,这些模块中的每个模块都由一个FAU堆栈组成。ILR首先通过双三次插值被上采样到与IHR相同的空间维度,馈送到SPARNet以产生ISR
在这里插入图片描述

图2 空间注意残差网络(SPARNet)的体系结构

基于观察到人脸SR中某些人脸部分(如眼睛、眉毛、鼻子和嘴巴等关键人脸成分)比其他部位(如脸颊阴影)更重要这一事实,我们提出了一种空间注意力机制,使我们的网络更关注重要和信息丰富的特征。关键问题是如何产生关注度图和如何将其与卷积层相结合。首先,我们认为空间注意机制不应该只关注高层次的面孔,还应该关注低层次的结构。请注意,高级视图可帮助网络了解面孔的外观,而低级视图可使网络更好地了解本地详细信息。因此,空间注意机制应该能够从多尺度特征中学习。第二,剩余块在一般SR任务和Face SR任务中都表现出了巨大的成功。因此,将空间注意机制与残差区块相结合应该是有益的。
基于以上讨论,我们提出了一种人脸注意单元(FAU),它通过引入空间注意分支来扩展原始残差块(见图3)。通过将FAU堆叠在一起,Face SR的重要特征不断增强。FAU中主要包括两个分支:特征分支和注意分支(应该提取多尺度特征)。
在这里插入图片描述

图3 面部注意单元

对于降级模块和高级模块中的残差块,我们使用scale Conv(见图4)对原始残差分支稍作修改。
在这里插入图片描述

图4 尺度残差块

SPARNetHD

将SPARNet扩展到SPARNetHD,以生成高分辨率和更逼真的SR图像。SPARNetHD增加了SPARNet的通道数,并采用了类似于Pix2PixHD的多尺度鉴别器。我们称这些鉴别器为D1、D2、和D3,它们分别用于从下采样到相同分辨率的地面事实中区分512×512、256×256和128×128三种不同尺度的SR图像。在不同尺度上使用多个鉴别器有助于提高SR图像的质量。

3、损失函数

SPARNet损失函数
通过最小化如下给出的像素级L2损失来优化SPARNet:
在这里插入图片描述
SPARNetHD损失函数
SPARNetHD中使用的损失函数由以下四个组件组成:
1、像素损失:我们使用L1范数作为ISR和IHR之间的像素级损失。它主要帮助约束输出中的低级信息,特别是颜色,定义为:
在这里插入图片描述
2、对抗性损失:这是关键的损失,有助于使输出更锐利,并生成更逼真的纹理,如头发。生成器和判别器的损失函数表示为:
在这里插入图片描述
3、特征匹配损失:这是判别器的特征空间损失。这有助于稳定GaN的训练。
在这里插入图片描述
4、感知损失:与特征匹配损失不同,感知损失是预先训练的VGG19网络的特征空间损失。它有助于约束输出中的高级语义。
在这里插入图片描述
最终的损失函数为:
在这里插入图片描述

4、实验结果

消融实验

比较了我们的模型的以下三种变体:

  • 基线:没有任何空间注意分支的残差SR网络。
  • SPARNet-VN:为了评估使用多个FAU块的有效性,我们保持特征分支不变,并改变SPARNet中使用的注意分支的数量。
  • SPARNet-SM:为了证明从多尺度特征中学习对于注意力机制是至关重要的,我们通过改变下采样/上采样块的数量来改变瓶颈中的特征地图的最小尺寸(尺度)。
  • SPARNet:在这项工作中使用的完整模型。

在这里插入图片描述

图5 为了评估所提出的空间注意机制的有效性,我们将SPARNet-V1和SPARNet的结果与基线模型的结果进行了比较。图5(A)显示,使用提出的空间注意机制,可以在PSNR和SSIM得分两个方面产生更好的图像质量结果。为了直观地显示注意机制带来的改善,我们基于五个关键的人脸地标(即两个眼睛中心、两个鼻子和两个嘴角)将人脸与固定模板对齐,计算每幅图像的二维PSNR和SSIM误差图,并对整个测试集的误差图进行平均。从图5©可以观察到,对应于关键面部结构的像素最难恢复(即,误差较大),并且正如预期的那样,大部分改进发生在它们周围。从图5(B)可以看出,SP ARNet实现了比基线(56.23%的AUC)更高的地标检测准确率(58.51%AUC)。这证明了空间注意机制的好处。

在这里插入图片描述

图6 显示了Helen测试集上的一些SR结果。上图:HR照片和SR结果;下图:SPARNet-V1的FAU中的空间注意图(左)和SPARNet的最后三个FAU中的空间注意图(右)。

实验证明使用单个FAU对关键面结构进行自举可能是次优的。SPARNet中的FAU序列允许注意图在不同的阶段逐渐聚焦于不同的关键面结构。例如,可以看到图6右下角倒数第二个FAU的注意力图清晰地聚焦在关键面部结构的轮廓上,而最后一个FAU的注意力图则聚焦于一般的面部区域。在图7(a)中,我们显示了SPARNet-VN的更多结果比较。可以观察到,SPARNet-VN的评估PSNR得分与N呈正相关,这说明了堆叠多FAU的有效性。在这里插入图片描述

图7 SPARNet-VN和SPARNet-SM在Helen测试集的消融研究。

在这里插入图片描述

用最先进的方法进行定性和定量比较。

在这里插入图片描述

在DICNet提供的Helen测试数据集上,PFSRNet,DICNet和SPARNet之间的视觉比较。所有结果均由CelebA训练的公共模型生成。 PFSRNet对于未对齐的测试面会产生不良结果。 SPARNet产生比DICNet更好的关键面部组件,尤其是在眼睛中。

在这里插入图片描述

在合成数据集CelebAHQ-Test(第一行)和实际数据seesCelebA-TestN(第二行)上对SPARNetHD中使用的损耗进行消融研究。

在这里插入图片描述
在合成数据集CelebAHQ-Test上,由SPARNetHD和其他方法产生的结果之间的视觉比较。
在这里插入图片描述
SPARNetHD和其他方法在真实LR数据集CelebA-TestN上产生的结果之间的视觉比较。

Image super-resolution (SR) is the process of increasing the resolution of a low-resolution (LR) image to a higher resolution (HR) version. This is an important task in computer vision and has many practical applications, such as improving the quality of images captured by low-resolution cameras or enhancing the resolution of medical images. However, most existing SR methods suffer from a loss of texture details and produce overly smooth HR images, which can result in unrealistic and unappealing results. To address this issue, a new SR method called Deep Spatial Feature Transform (DSFT) has been proposed. DSFT is a deep learning-based approach that uses a spatial feature transform layer to recover realistic texture in the HR image. The spatial feature transform layer takes the LR image and a set of HR feature maps as input and transforms the features to a higher dimensional space. This allows the model to better capture the high-frequency details in the image and produce more realistic HR images. The DSFT method also employs a multi-scale approach, where the LR image is processed at multiple scales to capture both local and global features. Additionally, the model uses residual connections to improve the training process and reduce the risk of overfitting. Experimental results show that DSFT outperforms state-of-the-art SR methods in terms of both quantitative metrics and visual quality. The method is also shown to be robust to different noise levels and image degradation scenarios. In summary, DSFT is a promising approach for realistic texture recovery in image super-resolution. Its ability to capture high-frequency details and produce visually appealing HR images makes it a valuable tool for various applications in computer vision.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值