图像修复：High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis（CVPR2017）-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42923416/article/details/108919421

project website：http://www.harryyang.org/inpainting/
code：https://github.com/leehomyc/Faster-High-Res-Neural-Inpainting
参考博客：
https://www.cnblogs.com/wenshinlee/p/12444785.html
https://blog.youkuaiyun.com/weixin_42360095/article/details/89525787

模型整体框架

在这里插入图片描述
整体框架如上，图像修复部分被限制了，为固定的中心区域。如输入为128 x 128，则待修复区域为中心的 64 x 64
网络分2个模块：

Content Network

$x_0$ ：去除了中心部分的输入（中心部分填补均值）
$f(x_0)$ ：Content Network输出，大小为 64 x 64 表示待修补区域
$h (x, R)$ ：Ground Truth，即原图的中心区域

即一个Encode Decode结构，由网络自动学习得到中心区域。

Texture Network

$x$ ：即 $x_0 + f(x_0)$ ，由content Network生成的结果补全输入后，整体做为Texture Network的输入。

其网络为基于ImageNet训练好的VGG网络，VGG只用来计算Loss用于训练Content Network。其思想为利用训练好的VGG的提取特征能力，因此只提取其中间层的特征，无需整个VGG网络。其作用看其loss就明白了。

Loss

$\begin{aligned} \tilde{x}_{i+1}=& \underset{x}{\arg \min } E_{c}\left(h(x, R), h\left(x_{i}, R\right)\right) \\ &+\alpha E_{t}\left(\phi_{t}(x), R^{\phi}\right)+\beta \Upsilon(x) \end{aligned}\tag 1$
其中 $i = 1, 2, . . ., N$ 为多尺度修复。针对大图（512 x 512），下采样修复后在逐层上采样refine。（这个多尺度形式总觉得怪怪的）

Content Network Loss

predict 和 GT 的 L2 Loss
$E_{c}\left(h(x, R), h\left(x_{i}, R\right)\right)=\left\|h(x, R)-h\left(x_{i}, R\right)\right\|_{2}^{2} \tag 2$

还可参考GAN的做法，加一个判别器 D ，去增强Content Network
$\begin{aligned} L_{a d v}\left(x, x_{g}, R\right)=\max _{D} E_{x \in \mathcal{X}}\left[\log \left(D\left(h\left(x_{g}, R\right)\right)\right)\right.&)] \\ +\log (1-D(f(x)))] \end{aligned}$

最终Content Network Loss为2个Loss的加权组合

Texture Network Loss

为了让缺失部分的细节与已知部分的细节相似（进一步促使网络从已知部分的结构去生成缺失部分，如棋盘这种重复结构的图像修补应该有挺大帮助）。

以小窗口（如3x3）滑动取生成区域的特征图，去和已知区域部分的特征图匹配。选取和生成区域的特征图最相似的已知区域特征。用L2 Loss限制这2部分。
$\begin{array}{l} E_{t}\left(\phi_{t}(x), R\right)= \\ \frac{1}{\left|R^{\phi}\right|} \sum_{i \in R^{\phi}}\left\|h\left(\phi_{t}(x), P_{i}\right)-h\left(\phi_{t}(x), P_{n n(i)}\right)\right\|_{2}^{2} \end{array} \tag 3$
$n(i)=\underset{j \in \mathcal{N}(i) \wedge j \notin R^{\phi}}{\arg \min }\left\|h\left(\phi_{t}(x), P_{i}\right)-h\left(\phi_{t}(x), P_{j}\right)\right\|_{2}^{2} \tag 4$

$|R^{\phi}|$ ：用于求均值
$\phi_{t}(x)$ ：VGG网络输入 $x$ 提取的特征
$P_i$ ：以 i 为中心的一小块区域（如以坐标 i 为中心的一个 3x3区域）
$h\left(\phi_{t}(x), P_{i}\right)$ ：提取 $\phi_{t}(x)$ 中 $P_i$ 区域的特征
$n n (i)$ ：即已知区域里的特征，和 $P_i$ 最相似的部分。