EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记

本文介绍了EDVR,一种在NTIRE19挑战赛中获胜的视频修复方法,通过PCD对齐模块处理大运动场景并采用TSA融合模块优化特征融合。模型利用金字塔结构和可变形卷积处理复杂运动,时空注意力机制提高重建质量。尽管参数量大,但性能优于前模型。

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

EDVR:基于增强可变形卷积网络的视频恢复


论文:https://arxiv.org/pdf/1905.02716.pdf

代码:xinntao/EDVR: Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops) - Video Restoration with Enhanced Deformable Convolutional Networks. EDVR has been merged into BasicSR and this repo is a mirror of BasicSR. (github.com)

本篇笔记主要对整篇论文从头到尾进行阅读分析,本文内容有点多,主要是对不同部分的总结以及图例解释,如果只对模型原理部分有兴趣,可直接观看第四部分。

本文为了详细说明各图、公式在各组件中的情况,所以对原文图片、公式做了切割和拼接,保证该内容是在该组件中生效的。

目录

(1)摘要

(2)引言

(3)相关工作

(4)本文方法介绍

(4.1)PCD模块(Alignment with Pyramid, Cascading and Deformable Convolution)

(4.2)TSA模块(Fusion with Temporal and Spatial Attention)

(4.3) 两阶段策略

(5)实验

(5.1)相比较其他模型的实验结果:

 (5.2)消融实验实验结果:

总结 :


(1)摘要

NTURE19挑战赛的REDS任务,两个挑战:(1)对齐大运动的多个帧。(2)有效融合具有不同运动和模糊的不同帧。本文的解决方案:(1)处理大范围运动,本文设计一种金字塔、级联和可变形(PCD)模块(从这就可以看出,本文模型的参数量应该不小),应用于特征级的针对齐。(2)提出时间和空间的注意力机制(TSA)融合模块,用于后续帧的恢复。

(2)引言

目前的VSR的pipelines通常由特征提取、对齐、融合和重建构成(可以看BasicVSR中的对于目前的VSR的归类,实际上可以普遍分为传播、对齐、融合以及上采样四部分),对于遮挡、大运动和严重模糊主要是对对齐和融合产生挑战。

对齐:当前的方法主要是两个分支,(1)显示运动估计,通过明确估计目标帧和参考帧之间的光流场,根据估计的运动长扭曲参考帧来实现对齐。(2)隐式运动估计,目前的研究是通过研究动态滤波器(DUF,可以看我前面的文章)和可变形卷积(DCN)来实现隐式的运动补偿,实现对齐。而对于基于光流的方法,精确的光流估计和扭曲很耗时,并且在大运动情况下,很难执行显示或隐式的运动补偿。

融合:当前的方法分为两种:(1)使用卷积对所有帧进行早期融合。(2)采用递归网络进行逐步融合。但是这两种方式没有考虑对齐帧上潜在的视觉信息量和位置信息都是不同的,受到模糊和不完美对齐的问题,不利于进行重建。

本文的解决方案:

EDVR:两个核心(1)金字塔(Pyramid)、级联(Cascading)和可变形(Deformable),(PCD)对齐模块。(2)时间和空间的注意力机制(TSA)融合模块

PCD模块使用可变形卷积将每个参考帧与目标帧对齐,将特征信息从粗到细进行对齐,但是对于文中的说明我觉得可能存在问题,文中说以金字塔的模式从低尺度的特征获得粗略运动信息,然后再到高尺度获得高精度运动信息。根据文中的内容,在金字塔形的可变形卷积中,作者是将特征图进行下采样获得低尺度的特征图,下采样会丢失某些特征,使可变形卷积获得粗略的运动信息,然后将粗略信息上传,提高大尺度特征图的在卷积中获得运动补偿信息的速率和效果

TSA融合模块,通过计算目标帧和参考帧特征之间的元素相关引入注意力机制,通过相关系数对每个位置的相邻特征进行加权,来表示该特征对于重建特征的影响,最后对所有加权特征进行卷积核融合。

从现在来看,本文对于视频处理的实时性要求不高,但是优于19之前的模型,缺点就是参数太大,相比较DUF可以看出还是比较有优势的。

(3)相关工作

本章节对VSR方法、DCN卷积以及注意力机制进行了简单介绍,文中主要应用这些思想,所以了解的话就没必要看了。

(4)本文方法介绍

本文的EDVR模型应用于视频超分和去模糊方面,下图是EDVR的统一架构,图中架构说明,左边的下半部分和PreDeblur Module模块是用于去模糊的,不是本次blog说明的重点,所以进行简要的说明:(去模糊在于将模糊内容通过其他相邻参考帧的补充,来补充模糊内容,对连续视频帧进行下采样,输入模糊的预处理模块,进行pipline中处理)。左边的上半部分用于视频超分。

本文中的VSR方法,将2N+1帧视频作为输入,t时刻帧作为目标帧,[N-t , N+t]范围帧作为参考帧,经过PCD对齐模块后,得到目标帧的以及2N个对齐后的特征,经过TSA模块,将进行融合,并提取出特征后重建SR视频帧。
 

作者提出PCD模块用于处理帧间对齐和TSA用于进行特征融合。所以我们着重讲一下这两个模块。

(4.1)PCD模块(Alignment with Pyramid, Cascading and Deformable Convolution)

本文使用的PCD模块,使用DCN可变形卷积进行扭曲,如上所说的使用隐式运动补偿来进行扭曲对齐操作。在PCD中采用金字塔模式进行多级对齐,由粗到细的方式,最后进行对齐操作,解决出现复杂运动和大范

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值