论文笔记：Efficient Multi-Stage Video Denoising with Recurrent Spatio-Temporal Fusion

最新推荐文章于 2025-03-09 17:00:33 发布

JimmyCM

最新推荐文章于 2025-03-09 17:00:33 发布

阅读量3.7k

点赞数 1

分类专栏：图像去噪文章标签：图像去噪视频去噪

本文链接：https://blog.youkuaiyun.com/zbwgycm/article/details/118754150

版权

图像去噪专栏收录该内容

14 篇文章

订阅专栏

华为 Noah's Ark Lab 提出的 EMVD 算法针对有限算力的终端设备，实现了有效的视频降噪。该算法通过可学习的可逆变换分解图像信息，并采用三级结构进行时域融合、空域降噪和时空精修，以减少噪声并保持图像细节。实验表明，EMVD 在较小的计算量下能达到较好的降噪效果，适合在实际设备上部署。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是Huawei Noah‘s Ark Lab在CVPR2021上的文章。他们针对于终端设备算力有限的条件下，提出了一种有效的视频降噪算法EMVD，其主要特点在于

通过可学习的可逆变换，将图像的亮度和颜色信息，以及不同的频率信息进行分解，在变换域进行图像降噪处理；
使用了三级结构，包括时域融合（temporal fusion）、空域降噪（spatial denoising）、时空精修（spatio-temporal refinement）三个阶段，每级结构都有明确的任务和可解释性；
使用很小的参数和计算量就可以取得较好的效果；

Overview

降噪方法针对于RAW域图像，假设噪声模型是异质性高斯噪声，即由读出噪声和散粒噪声构成。

$\sigma^2_t(y_t)=a_ty_t+b_t$

在这种假设下，噪声参数 $a_t$ 和 $b_t$ 只与给定的传感器和相机ISO参数有关，因而可以提前进行噪声标定获得噪声参数。

整个方法流程图如下图所示
在这里插入图片描述

Learnable Invertible Transforms

受YUV和小波变换的启发，可以将RAW图像的颜色信息和频率信息做分解，这种变换是线性且可逆的，可以通过设计为标准卷积操作来学习。

其中颜色变换可以设计为 $1\times 1$ 卷积，输入4通道（RGGB），输出4通道；通常颜色矩阵定义为

$M=\left[\begin{matrix}0.5&0.5&0.5&0.5\\ -0.5&0.5&0.5&-0.5\\ 0.65&0.2784&-0.2784&-0.65\\ -0.2784&0.65&-0.65&0.2784 \end{matrix}\right]=\left[\begin{matrix}Y\\U\\V\\W\end{matrix}\right]$

在本文中使用该矩阵作为卷积初始化初始化。

频率变换可以像如Haar小波一样，设计为4个 $n\times n$ 的卷积。文章使用两个 $1\times n$ 一维滤波器，包括一个低通滤波 $\psi_L$ 和一个高通滤波 $\psi_H$ 。两者相互组合的外积作为 $n\times n$ 的卷积核初始化。
在这里插入图片描述
为了保证学习到的正变换和逆变换是相互可逆的，在学习时加入了约束

$L_c=\|M\cdot M'-I_C\|^2_F$ 和 $L_f=\|\psi\cdot \phi-I_2\|^2_F$

其中， $I_c$ 和 $I_2$ 分别为秩为C和2的单位矩阵。

Fusion Stage

该阶段的目的是使用视频的时域相关特征来减小噪声同时不引入其他的伪纹理。因而，时域融合可以定义为

$\bar{y}_t(x)=\bar{y}_{t-1}(x)\bar{\gamma}_{t-1}(x)+z_t(x)\gamma_t(x)$

其中， $\gamma$ 是非负的凸权重，通道数为1，且满足 $\bar{\gamma}_{t-1}(x)+\gamma_t(x)=1$ 。在 $t = 0$ 时刻初始化 $\bar{y}_0\equiv z_0$ 。
在这里插入图片描述
融合权重使用网络进行估计

$\{\gamma_t,\bar{\gamma}_{t-1}\}=FCNN(|z_{LL|t}-\bar{y}_{LL|t-1}|,\hat{\sigma}^2_t)$

其中， $z_{LL|t}$ 和 $\bar{y}_{LL|t-1}$ 分别表示噪声输入和上一时刻融合帧的低通分量。 $\hat{\sigma}^2_t=\sigma^2_t(z_{LL|t})$ 表示输入帧的噪声方差，此处使用 $z_{LL|t}$ 代表 $y_t$ 来减小噪声对方差估计的影响。FCNN的输出层使用sigmoid函数作为激活函数。当使用多尺度时，低尺度的融合权重也被上采样作为额外的输入，正如方法流程图所示。

时域融合也可以解释为核预测网络的一种核为 $1\times 1$ 的特殊情况。因此时域融合的广义形式可以定义为：

$\bar{y}_t(x)=\bar{y}_{t-1}(x)\circledast\bar{k}_{t-1}(x)+z_t(x)\circledast k_t(x)$

其中 $\circledast$ 表示卷积操作， $k$ 表示应用于当前噪声帧大小为 $p\times p$ 的空间自适应核， $\bar{k}_{t-1}$ 表示应用于前一帧的大小为 $\bar{p}\times\bar{p}$ 的核。

Denoising Stage

仅仅采用时域融合进行降噪是不充分的，因为图像中的运动区域不能被时域信息有效地补偿。因而，在时域融合之后进行空域降噪。

$\tilde{y}_t=DCNN(\bar{y}_t,z_{LL|t},\bar{\sigma}^2_t)$

其中， $\bar{\sigma^2_t}$ 是融合图像 $\bar{y}_t$ 的噪声方差，其不仅依赖于第 $t$ 帧的信号依赖方差，同时也依赖于融合的所有过去帧的累加效应。

$\bar{\sigma}^2_t\equiv \sigma^2_t(\bar{y}_{LL|t})=\bar{\gamma}^2_{t-1}\sigma^2_{t-1}(\bar{y}_{LL|t-1})+\gamma^2_t\sigma^2_t(z_{LL|t})$

其中，视频噪声在时域上认为是独立的，因而去掉了互相关项，且初始化条件为 $\sigma^2_t(\bar{y}_{LL|0})\equiv\sigma^2_t(Z_{LL|0})$ 。既然 $\gamma_t(x)\le 1$ ，方差 $\bar{\sigma}^2_t$ 随时间减小。

当使用多尺度时，低尺度的数据也被上采样作为额外的输入。

Refinement Stage

降噪可能会带来伪纹理和信息丢失，因而在进行降噪之后，加入了精修阶段提升降噪效果。精修阶段通过将融合阶段图像 $\bar{y}_t$ （有高频纹理但存在噪声）中的高频信息叠加到降噪阶段输出图像 $\tilde{y}_t$ （无噪声但过平滑）上，达到提升图像细节的效果。

$\hat{y}_t(x)=\bar{y}_t(x)\bar{\omega}_t(x)+\tilde{y}_t(x)\tilde{\omega}_t(x)$

其中，凸权重满足 $\bar{\omega}_{t}(x)+\tilde{\omega}_t(x)=1$ 。精修权重也通过一个网络来进行计算

$\{\tilde{\omega}_t,\bar{\omega}_{t}\}=RCNN(\tilde{y}_t,\bar{y}_{t},\bar{\sigma}^2_t)$

同样，RCNN的输出层使用sigmoid函数作为激活函数。而且精修网络仅仅在最高的尺度上进行。
在这里插入图片描述

Experiment

数据集

CRVD Benchmark 其包括了一个利用SONY IMX385传感器拍摄的真实RAW视频数据集（CRVD）和一个合成数据集SRVD。所有视频有五个不同的ISO水平，ISO范围为[1600,25600]。文章使用完整的SRVD加上CRVD的1-6场景作为训练集，CRVD的7-11场景作为验证集。CRVD也包含了少量没有GT的户外噪声视频作为视觉质量比较。

IMX327 Dataset 使用SONY IMX327传感器拍摄了更多的图像。使用1042张高质量RAW图合成训练集，ISO从25600到96000取值。验证集包含了6个合成噪声视频，ISO分别为25600,51200和96000。测试集使用了6个在低照度场景（1l ux以下）下拍摄的真实噪声视频。