《Multi-Frame Video Super-Resolution Using Convolution Neural Networks》读书笔记

最新推荐文章于 2024-09-11 08:10:30 发布

原创最新推荐文章于 2024-09-11 08:10:30 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#ML #SR #CNN

ML 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种基于全卷积网络的图像超分辨率技术，通过9层网络结构实现图像放大，并利用MSE、PSRN和SSIM等指标评估图像质量。讨论了单帧与多帧CNN在超分辨率任务上的应用。

部署运行你感兴趣的模型镜像

论文地址

$MSE$ 定义

M S E (Y^, Y) = 1 2 1 3 H W \sum i = 1 H \sum j = 1 w \sum k = 1 3 (Y^i j k - Y i j k) 2

$MSE(\hat{Y},Y)=\frac{1}{2}\frac{1}{3HW}\sum_{i=1}^{H}\sum_{j=1}^{w}\sum_{k=1}^{3}(\hat{Y}_{ijk}-Y_{ijk})^{2}$

$PSRN$ 定义

P S R N (Y^, Y) = 20 log (s) - 10 log M S E (Y^, Y)

$PSRN(\hat{Y},Y)=20\log(s)-10\log MSE(\hat{Y},Y)$

s s $s$ 为像素最大可能值

$SSIM$ 定义
$S S I M (Y^, Y) = ( 2 μ Y ^ μ Y + c 1 ) ( 2 σ Y ^ Y + c 2 ) ( μ 2 Y ^ + μ 2 Y + c 1 ) ( σ 2 Y ^ + σ 2 Y + c 2 )$ $SSIM(\hat{Y},Y)=\frac{(2\mu_{\hat{Y}}\mu_{Y}+c_{1})(2\sigma_{\hat{Y}Y}+c_{2})}{(\mu^{2}_{\hat{Y}}+\mu_{Y}^{2}+c1)(\sigma_{\hat{Y}}^{2}+\sigma^{2}_{Y}+c2)}$

$s$ 为像素最大可能值， $\mu_{Y}$ 为 $Y$ 的均值， $\sigma_{Y}^{2}$ 为方差， $\sigma_{\hat{Y}Y}$ 为协方差， $c1,c2$ 分别为 $0.01s^{2},0.03s^{2}$

在该片论文中，选择 $SSIM$ 对模型进行好坏的评价。

框架

网络结构

为了保证能够对任意大小的图像进行super-resolution，在网络结构上使用了全卷积（Full Convolution）。
在输入前使用双三次插值(bicubic interpolation)进行上采样(upsample).在网络中保持图像大小不变。
使用了9层layer，且均使用relu function，同时在训练过程中dropout。
对于每个权重矩阵（weigte matrix），均进行L2 正则化（L2 regularization）。L2 正则化通过在损失函数中增加一些超参数与权重矩阵的MSE的乘积，来限制权重的大小。
以下为L2 正则化的公式：

L 2 (W) = λ ∥ W ∥ 22

$L2(W)=\lambda \lVert W\rVert_{2}^{2}$
relu函数公式：

r e l u (x) = m a x (0, x)

$relu(x)=max(0,x)$
dropout 公式：

D r o p o u t (x, p) = {x, 0, with prob. p with prob. 1 - p

$Dropout(x,p)=\begin{cases}x, & \mbox{with prob.} p \\ 0, & \mbox{with prob.} 1-p\end{cases}$

训练算法

在论文中，使用了Momentum和Adam两种更新算法。两种更新算法的在此不表。

超参数

$k$ 为层数，在这里 $k=9$
$n_i$ 代表第i层的神经元（neuron）个数,
$f_i$ 为第i层卷积核大小

其中 $f_i\in \left[ 1,11\right],n_i\in \left\{ 8,16,32,64,96\right\}$
根据机器性能设定上界。
在output layer 中 $n_k=3$ ，保证为RGB三通道。
学习率（learning rate），正则化参数（regularization strength）,丢弃参数（dropout parameter）在此不表

权重初始化

在此不表

单帧与多帧CNN对比

文章中训练了两种不同类型的模型，一种为单帧CNN（SICNN）和多帧CNN（MFCNN）。在SICNN中，文章严格按照上文所述的结构进行建模。而在MFCNN中，文章对模型进行了一定的调整，使得它能够不仅仅参考当前帧，还能参考当前帧的附近d帧。在文章中，MFCNN将临近的 $2*d+1$ 帧堆叠起来对当前帧进行预测。