文献地址:http://openaccess.thecvf.com/CVPR2020_search.py
文章中了CVPR2020。
目录
一、概述
本文提出了一套全新的端到端视频编解码框架。针对现有基于学习的视频编解码需要光流、双线性warping和运动补偿,而且有相对复杂的架构和训练策略(需要预训练光流、训练各个子网络、训练过程中重建帧需要缓冲区),本文提出一种广义warping操作,可以处理比如去遮挡、快速运动等复杂问题,而且模型和训练流程大大简化。
二、本文贡献
本文对现有的基于学习的包含光流估计+运动补偿的框架总结出四个问题:
(1)光流预测需要解决孔径问题(光流之所以是个病态问题的原因),这个问题比压缩问题更复杂;
(2)编解码框架中加入光流网络,给整个编解码框架增加了约束和复杂度;
(3)好的光流模型如果想要达到state-of-the-art表现,需要标注数据且训练复杂化。根据DVC的训练过程,在联合训练整个网络时,不需要单独的光流标注数据,所以作者总结的这个现有基于学习的视频编解框架的缺点个人认为有点牵强。
(4)稠密光流没有“no use”的概念,每个像素都要进行warped,导致无遮挡情况下会有较大残差。
针对上面四个现有框架缺点,作者提出改进措施,本文的贡献如下:
(1)提出尺度空间光流和warping,一种对光流+双线性warping的直观概述;
(2)简单的编解码框架和训练过程。
(3)实验结果显示达超过了基于训练的视频编解码的state-of-the-art结果,而且消融实验也表明了方法的有效性。
三、论文思想
1、尺度空间光流

重点就在于构造光流时引入了scale field。

本文提出一种基于尺度空间光流的全新端到端视频编解码框架,解决了传统方法中光流预测的孔径问题和复杂度问题,简化了训练流程,实验结果超过现有基于学习的视频编解码技术。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



