[人脸对齐] SAN:Style Aggregated Network for Facial Landmark Detection 论文阅读

提出一种基于风格聚合的人脸关键点检测方法(SAN),通过生成对抗模块将原始人脸图像转换为风格聚合图像,增强对环境变化的鲁棒性。结合原始图像与风格聚合图像训练检测器,提升检测性能。

转载请注明作者和出处: http://blog.youkuaiyun.com/john_bh/

论文链接: Style Aggregated Network for Facial Landmark Detection
作者及团队:悉尼科技大学 & 悉尼大学
会议及时间:CVPR 2018
code: 作者开源github 地址

1. 主要贡献

作者认为人脸关键点检测中,除了人脸图像本身之间的差异,图像风格的内在差异也是一个待续解决的问题,于是提出了一种基于风格聚合的人脸地标检测方法。

  • 通过生成对抗模块将原始人脸图像转换为风格聚合图像,采用风格聚合图像来保持对环境变化具有更强鲁棒性的人脸图像。
  • 将原始人脸图像与风格聚合的人脸图像一起训练 landmark 检测器,原始图像和聚合图像形成互补,提升检测器性能;
  • 提出 300W-Style 和 AFLW-Style 数据集。

图1显示了人脸图像的三种不同风格,以及使用训练好的检测器时对它们的人脸 landmark 的预测结果。这三幅图像的内容是一样的,但是视觉风格是截然不同的,包括原图、灰度和光线。我们可以观察到,对同一面部地标的位置预测可能会有所不同。
在这里插入图片描述
图2展示了在数据集AFLW 和 300W 中的存在不同风格数据对比。
在这里插入图片描述

2. SAN

如图3 所示,作者设计了一款对风格变化不敏感的人脸关键点检测网络,包含两个模块:

  • 第一个是样式聚合的人脸生成模块,它将输入图像转换为不同的样式,然后将它们组合为样式聚合的人脸,以对抗风格变化的影响;
  • 第二个是人脸 landmark 检测器模块,该模块以原始图像和风格聚合的图像为输入,得到两个互补的特征,然后将两个特征融合,级联生成热图预测。

在这里插入图片描述

2.1 StyleAggregated Face Generation Module

因为公开的数据集并没有特别严格的风格标签,所以不能使用 I2I 和 style-tansfer 直接进行风格转换。作者提出使用无监督的方法:

  1. 首先使用PS 为每个原始图像生成3中不同风格的图像;
  2. 学习风格信息:将原始图像和生成的3中风格图像,共四种风格一起送到 ResNet-152 模型中,进行微调。这里的 average pool 可以看看作是风格区分特征;(使用四种风格数据再ImagNet 的预训练模型上 训练 2 个epoch, learning rate=0.01 )
  3. 得到风格信息 Label :通过k-means自动将整个数据集聚成 k k k 种隐藏风格;( k = 3 k=3 k=3),300W聚类结果如图6所示。
  4. 最后,将不同聚类中的人脸图像视为不同的隐藏风格,然后通过CycleGAN训练人脸生成风格聚合的人脸。CycleGAN能够保留输入图像的结构,因为它的循环一致性损失保证了重建图像与输入图像的紧密匹配。

具体流程如图4所示:
在这里插入图片描述

2.2 Facial Landmark Prediction Module

人脸关键点预测模块流程如图3所示:绿色流表示聚合风格的人脸,蓝色流表示原始风格中的人脸。蓝色流包含人脸的未失真外观内容,但图像风格可能有所不同。绿色流包含了人脸周围的静止环境,但可能由于GAN造成的保真度较低而缺乏一定的形状信息。所以,通过利用他们互补的信息,可以产生更可靠的预测。

关键点预测模块中,使用VGG-16的前4个卷积块和另外两个卷积层作为特征提取部分,如图3所示。

  1. 输入原始图像 I o I_o Io 和 风格聚图像 I s I_s Is 到特征提取部分, 输出原始图像特征 F o F_o Fo
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值