基于深度学习的参考帧生成

原创于 2022-07-06 00:10:53 发布 · 1.4w 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #参考帧合成 #插帧

视频编码同时被 3 个专栏收录

216 篇文章

订阅专栏

155 篇文章

订阅专栏

31 篇文章

订阅专栏

本文来自提案JVET-T0058和JVET-U0087，该方法通过插帧的方法生成虚拟参考帧用于帧间预测。整个模型由几个子模型组成，分别进行光流估计、补偿和细节增强。

整体架构

整体架构如Fig.1所示，在视频编码过程中DPB中存着用于运动估计的参考帧，根据GOP结构当前帧有一个或多个前向、后向参考帧。提案中默认使用POC距离当前帧最近的两个参考帧生成虚拟参考帧，如Fig.1中当前帧POC是5，则使用POC为4和6的帧生成参考帧。生成的虚拟参考帧会被放入DPB用于参考，虚拟参考帧的POC设置为和当前帧相同。为了防止影响时域MVP中根据POC距离的MV缩放过程，虚拟参考帧的MV都设为0且被用作长期参考帧。在提案中，当前帧解码完成后虚拟参考帧就从DPB中移除。

对于高分辨率序列（4K或8K）由于资源受限不能对整帧直接使用神经网络处理，此时假设虚拟参考帧被分为多个区域，每个区域单独使用网络生成，然后将这些区域拼成参考帧。

网络模型

一般的视频插帧大都利用了光流估计和补偿，一般使用双向光流方法，然后通过一个线性模型将两个光流合成一个。提案中仅使用单光流模型。

如Fig.2，首先通过光流估计模型生成光流（输入为POC距离最近的两个参考帧），然后通过backward warping过程处理光流，处理后的光流和两个参考帧再通过fusion过程合成中间帧。中间帧会通过细节增强模型提升质量，细节增强模型包含两部分，PCD(Pyramid, Cascading and Deformable)用于时空优化和TSA (Temporal and Spatial Attention)用于提高重要特征的attention。

实验结果

感兴趣的请关注微信公众号Video Coding

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。