不用HR参与训练之盲视频超分中的自监督学习

本文介绍了一种自监督学习方法,用于解决视频超级分辨率(VSR)的盲问题,无需高分辨率(HR)监督。通过估计模糊核、光流并生成辅助训练数据,该方法实现了VSR网络的训练。研究了模糊核稀疏性及图像形成模型,提出了结合拉普拉斯先验和视频退化约束的损失函数。实验展示了在REDs数据集上的效果,包括消融实验和性能评估。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
(如需转载等事宜请联系"我爱计算机视觉")
作者单位:南理工
论文链接:https://arxiv.org/pdf/2201.07422.pdf
代码链接:https://github.com/csbhr/Self-Blind-VSR
编者言:以往的VSR采用监督的方式,生成SR图像与HR进行监督。本文采取自监督的方法(监督LR)来对网络进行训练约束,为盲视频SR算法应用自监督学习的开端之作,代码已开源。

看点

现有的VSR方法通常依赖于监督学习方法,其中训练数据通常由已知或预定义核(例如双三次核)的模糊操作生成。然而,这并不适用于实际应用。为此,本文提出了一种自监督学习方法来解决盲VSR问题,该方法同时从LR视频中估计模糊核、HR视频和生成辅助配对数据以便对VSR网络进行约束。解决了没有HR做监督的VSR问题。在这里插入图片描述

方法

Overview

本方法是一种有效的自监督学习方法,使模糊核、光流和潜在的HR帧可以在没有任何HR监督的情况下同时估计。框架由两个分支组成,如下图所示。主分支用于估计模糊核、光流和潜在HR帧,辅助分支使用LR输入帧和模糊核生成的辅助训练数据来约束光流和潜在HR帧的网络训练,这两个分支中的VSR模块共享相同的网络参数。此外,下图还展示了VSR网络的细节架构。
在这里插入图片描述

模糊核估计、光流和潜在的HR帧

VSR模快中采用PWC-Net作为光流估计模型, N f \mathcal{N}_{f} Nf表示光流估计网络,采用PWC-Net的默认网络配置。模糊核估计 N k \mathcal{N}_{k} Nk,特征提取网络 N e \mathcal{N}_{e} Ne和潜在的HR帧恢复网络 N I \mathcal{N}_{I} NI的结构如下图所示。
在这里插入图片描述

自监督学习

由于HR和模糊核不可用,一个简单的训练方法是最小化以下损失函数: L self  = ρ ( S K i x i − y i ) \mathcal{L}_{\text {self }}=\rho\left(\mathbf{S K}_{i} \mathrm{x}_{i}-\mathrm{y}_{i}\right) Lself =ρ(SKixiyi)其中 ρ ( ⋅ ) \rho(·) ρ()通常取L1范数或2范数。然而,直接最小化通常会导致琐碎的解决方案。为了克服这个问题,本文研究了模糊核的性质和图像形成模型来约束模糊核估计和潜在HR帧恢复过程。
由于模糊核的元素通常是稀疏的,故采用一个拉普拉斯先验对 N k \mathcal{N}_{k} Nk的输出进行稀疏化建模: L k = ∥ K i ∥ α \mathcal{L}_{k}=\left\|K_{i}\right\|^{\alpha} Lk=Kiα其中α是一个超参数,通常取0。为了规范潜在的HR帧恢复过程,本文采用一个基于图像形成模型的视频退化约束,通过将LR作为HR序列来生成辅助LR帧。基于上述性质, N I \mathcal{N}_{I} NI的输出应该接近LR。为此,约束可以表示为: L I = ρ ( N I ( C [ L i − N e , w , … , L i − 1 e , w ,   L i e ,   L i + 1 e , w , … , L i + N e , w ] ) − y i ) \mathcal{L}_{I}=\rho\left(\mathcal{N}_{I}\left(\mathcal{C}\left[\mathrm{L}_{i-N}^{e, w}, \ldots, \mathrm{L}_{i-1}^{e, w}, \mathrm{~L}_{i}^{e}, \mathrm{~L}_{i+1}^{e, w}, \ldots, \mathrm{L}_{i+N}^{e, w}\right]\right)-\mathrm{y}_{i}\right) LI=ρ(NI(C[LiNe,w,,Li1e,w, Lie, Li+1e,w,,Li+Ne,w])yi)故总的损失函数表示为: L = L self  + λ L I + γ L k \mathcal{L}=\mathcal{L}_{\text {self }}+\lambda \mathcal{L}_{I}+\gamma \mathcal{L}_{k} L=Lself +λLI+γLk这种SLR的生成方式不禁让编者想起了2021年WACV中的DynaVSR这篇文章,本文可以说是DynaVSR的训练部分的微扩张版本,在HR后增加了下采样,在SLR后增加了上采样,这样就可以只用LR进行监督了。在这里插入图片描述

实验

实施细节

使用REDS数据集作为训练数据集。在生成LR视频时,模糊操作使用不同的高斯模糊核和KernelGAN中的真实运动模糊核。

消融实验

提出的自监督学习方法的损失消融实验,其中,(9)、(6)和(5)分别表示 L I \mathcal{L}_{I} LI L k \mathcal{L}_{k} Lk L s e l f \mathcal{L}_{self} Lself
在这里插入图片描述
有无HR监督的消融实验,HR监督是更有效的
在这里插入图片描述
计算复杂度和模型大小比较,测试像素为720×1280
在这里插入图片描述

定量评估

在这里插入图片描述

定性评估

在真实世界的模糊核退化下,定性评估如下:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值