反P图技术水记（用光流还原出原图）

原创于 2022-09-15 00:43:38 发布 · 459 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #人工智能

我的论文笔记专栏收录该内容

30 篇文章

订阅专栏

反P图技术水记（用光流还原出原图）

《Detecting Photoshopped Faces by Scripting Photoshop》

https://arxiv.org/abs/1906.05856

想看这篇主要是想看看，他是如何用神经网络对图像进行变形的

Detecting Photoshopped Faces by Scripting Photoshop方法部分理解_飞鸡110的博客-优快云博客

Detecting Photoshopped Faces by Scripting Photoshop笔记_Delia_ing的博客-优快云博客

似乎是用了一个检测网络和一个修正网络

修正网络用的是光流！！！

在检测到一张脸是否被修改过之后，观众自然会问图像是如何被编辑的，图像的哪些部分被扭曲了，图像在被修改之前是什么样子的?

要做到这一点，我们预测一个光学流场 $\hat{U} \in \mathbb{R}^{H \times W \times 2}$ 从原始图像 $X_{\text {orig }} \in \mathbb{R}^{H \times W \times 3}$ 到扭曲图像 $X$ ，然后使用它来尝试“反向”操作和恢复原始图像。

光流预测模型的损失函数

损失分为三部分

光流场损失：

$\mathcal{L}_{\text {epe }}(\mathcal{F})=\|M \odot(\mathcal{F}(X)-U)\|_{2}$

$X$ 是输入的编辑后的图像

$U$ 是 ground truth 的光流

$M$ 是一个二值 mask，用于去除错误的光流。

抛弃在 forward-backward consistency test 中失败的像素，就得到 $\in \mathbb{R}^{H \times W \times 1}$

光流场变化损失：

通过最小化光流场梯度的多尺度损失，来提高光流场的光滑程度

$\mathcal{L}_{m s}(\mathcal{F})=\sum_{s \in S} \sum_{t \in\{x, y\}}\left\|M \odot\left(\nabla_{t}^{s}(\mathcal{F}(X))-\nabla_{t}^{s}(U)\right)\right\|_{2}$

其中 $\nabla_{x}^{s},\nabla_{y}^{s}$ 表示水平和竖直方向上光流场的梯度，decimated by stride $\in \{2,8,32,64\}$

就是说 $\nabla_{x}^{s}$ 中的 $t$ 表示不同方向， $s$ 表示不同尺度（步长）

这个式子就是用来减小不同方向不同尺度的预测光流场的梯度与真实光流场的梯度的差别

重建损失：

$\mathcal{L}_{r e c}(\mathcal{F})=\left\|\mathcal{T}(X ; \mathcal{F}(X))-X_{\text {orig }}\right\|_{1}$

只应用重构损失会导致 low-texture regions 的歧义，这往往会导致伪影

组合三种损失：

$\mathcal{L}_{\text {total }}=\lambda_{e} \mathcal{L}_{\text {epe }}+\lambda_{m} \mathcal{L}_{m s}+\lambda_{r} \mathcal{L}_{\text {rec }}$

其中， $\lambda_e=1.5,\ \lambda_m=15,\ \lambda_r=1$

模型架构

作者使用 DRN-C-26 [39]，在ImageNet[32]数据集上预先训练，作为用于局部预测的基础网络。

DRN架构最初是为语义分割而设计的，作者发现它在翘曲预测任务中工作得很好。

作者发现，直接训练光流回归网络的性能很差。

作者首先将问题重构为回归问题中常用的多叉分类（如着色[22，40]、表面法线预测[36]和生成式建模[27]），然后用回归损失进行微调。

作者使用 PWC-Net [33] 计算 ground truth 光流。

训练程序的细节见附录A6。

训练，分为两阶段

（专门去看了附录）

光流估计模型的训练分为两个阶段，

先在离散化的光流场上预训练，再在真正的光流场上微调

阶段一：

先训练一个逐像素的 121 类分类器，用于预测离散化的形变场

形变场每个像素的向量被离散化为 ${u,v\}$

其中 $u,v\in \{-5,-4,\cdots,0,\cdots,4,5\}$ （绝对值超过 5 的被截断），正好是 121 种组合

这种策略与 Zhang et al. [40] 一致（这个是做图片上色的），先做离散化的多分类任务，再微调，会比直接训练有更好的效果

阶段二：

用预训练的模型初始化光流估计模型的基础网络，剩余部分用高斯分布随机初始化

两个阶段都是用的 Adam 优化器

Experiments

评估一种用的是人工ps的，一种用的是脚本ps的

首先研究验证集上修改的图像是否可以由全局分类器检测到。通过扰动图像来测试分类器的鲁棒性，并测量其对专业艺术家操作的泛化能力

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。