M-LVC: Multiple Frames Prediction for Learned Video Compression 个人理解

最新推荐文章于 2023-01-26 11:28:34 发布

原创

最新推荐文章于 2023-01-26 11:28:34 发布 · 1.7k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

文献地址：https://arxiv.org/abs/2004.10290

代码地址：https://github.com/JianpingLin/M-LVC_CVPR2020

文章入选CVPR2020，网络上已经有对本文进行了简单解读（https://blog.youkuaiyun.com/moxibingdao/article/details/105804082，https://zhuanlan.zhihu.com/p/136343529），本文是对DVC的改进，因为在实际工作中，我们对DVC也进行了深入了解并复现，所以非常有必要对本文进行学习，对文献的理解做一下记录。

一、概述

因为DVC的编解码框架类似于混合编解码框架，所以减少MV和残差的码率是优化的关键，DVC框架的P帧编码是借助前一个解码帧进行运动估计、运动补偿、残差编解码等相关操作，而本文是借助借助前面多帧进行这些操作，理论上是可以提升DVC的编解码性能，可以减缓错误传播的速度。

二、本文贡献

1、对基于学习的端到端视频编解码框架增加四个模块：基于多帧的运动估计、基于多帧的运动步长、运动优化、残差优化；

2、只采用优化一个率失真损失函数和step-by-step的训练策略。

3、性能超过现有基于学习的视频编解码和H265算法（低延时）。

三、论文思想

1、本文提出的方法见下图，蓝色框为本文创新：增加的四个模块。

编解码流程与DVC一致，本文对光流编解码除了多参考帧和MV优化，还有另外一个改进：并不是直接编解码光流，而是对预测光流与原始光流的残差进行编解码。

2、

最低0.47元/天解锁文章

15 条评论

零尾 2020.12.01
大佬还有推荐的哪一篇方法没，M-LVC实在搞不动我就考虑暂时出坑了……
- cs_software_回复零尾 2020.12.01
  我是搞DVC框架，端到端视频编解码框架想提升还是有些难度的

零尾 2020.11.20
最近尝试从M-LVC测试代码中单处拆出来编码和解码流程，想着把编码结果（量化并二值化表示的运动向量差和残差）存成一个.bin文件，再加载.bin并解析解码重构到yuv... 发现entropy_bottleneck.compress()压缩后的残差信息输出居然是空的了.. 与运动向量差编解码部分不同的是，在残差编解码部分代码中使用了tfc.EntorpyBottleneck_gauss()还有一个hyperModel，hyperModel计算的bpp也被算进了总bpp中，那残差网络这部分的量化残差难道包含entropy_bottleneck.compress()和hyperModel这两部分的输出？其中entropy_bottleneck.compress()查看是空的...比较迷惑 [code=python] bit_string_dev, entropy_bottleneck_dev, dev_tilde, train_bpp_dev = self.hyperModel(y, num_pixels, reuse=False, isTrain=False) string = entropy_bottleneck.compress(y, dev_tilde) bit_string = tf.squeeze(string, axis=0) [/code]

零尾 2020.11.20
最近尝试从M-LVC测试代码中单处拆出来编码和解码流程，想着把编码结果（量化并二值化表示的运动向量差和残差）存成一个.bin文件，再加载.bin并解析解码重构到yuv... 发现entropy_bottleneck.compress()压缩后的残差信息输出居然是空的了.. 与运动向量差编解码部分不同的是，在残差编解码部分代码中使用了tfc.EntorpyBottleneck_gauss()还有一个hyperModel，hyperModel计算的bpp也被算进了总bpp中，那残差网络这部分的量化残差难道包含entropy_bottleneck.compress()和hyperModel这两部分的输出？其中entropy_bottleneck.compress()查看是空的...比较迷惑 [code=python] def __call__(self, resi_frames, num_pixels, reuse=False, isTrain=True): with tf.variable_scope(self.name, reuse=reuse) as vs: y = self.analysis_transform(resi_frames, self.N_filters, self.M_filters) entropy_bottleneck = tfc.EntropyBottleneck_gauss() bit_string = None bit_string_dev = None if isTrain: _, entropy_bottleneck_dev, dev_tilde, train_bpp_dev = self.hyperModel(y, num_pixels, reuse=False, isTrain=True) y_tilde, likelihoods = entropy_bottleneck(y, dev_tilde, training=True) else: bit_str [/code]
- 零尾回复_Fighting_Girl 2020.12.14
  心累，准备写训练代码了
- _Fighting_Girl回复零尾 2020.12.14
  坑都填了呀？
- 零尾回复_Fighting_Girl 2020.12.14
  MLVC我给第0帧（I帧）存成了.bpg，其它帧写成了.bin
- _Fighting_Girl回复零尾 2020.12.04
  DVC用的是.bin文件，你试试把DVC和MLVC的利用yuv结合一下，我还是觉得DVC比较直观，MLVC封装的太严实
- 零尾回复cs_software_ 2020.12.01
  我踩出几个坑，原作github不回复，头大啊[face]monkey:0.gif[/face]
- cs_software_回复零尾 2020.11.23
  M-LVC的代码我没跑过，其中的坑儿也不太清楚。

零尾 2020.11.03
麻烦再请教一个问题哈，对于M-LVC，它的中间文件需要包含哪些信息呢
- 零尾回复cs_software_ 2020.11.20
  最近尝试从M-LVC测试代码中单处拆出来编码和解码流程，想着把编码结果（压缩并二值化表示的运动向量差、量化并二值化表示的残差）存成一个.bin文件，再加载.bin并解析解码重构到yuv... 发现entropy_bottleneck.compress()压缩后的残差信息输出居然是空的了.. 与运动向量差编解码部分不同的是，在残差编解码部分代码中使用了tfc.EntorpyBottleneck_gauss()还有一个hyperModel，hyperModel计算的bpp也被算进了总bpp中，那残差网络这部分的量化残差难道包含entropy_bottleneck.compress()和hyperModel这两部分的输出？其中entropy_bottleneck.compress()查看是空的...比较迷惑
- cs_software_回复零尾 2020.11.04
  运动编码和残差编码信息

零尾 2020.11.03
大佬好，我最近初学深度学习视频压缩，有个问题想要请教一下：我们在使用算法模型（比如OpenDVC或M-LVC这种）对一个原始视频（比如.yuv）进行压缩，这个过程我理解为是在对原视频进行编码，并以一种特定的形式存储下来，当需要使用时将特定格式文件再进行解码还原到常用格式（比如.yuv）不知道我的理解是否正确，如果是这样的话，那么对于M-LVC这类算法而言，经过它编码的原始视频应该以一种什么样的文件形式存储，该去存编码过程中产生的哪些数据？
- cs_software_回复零尾 2020.11.03
  一般中间文件为了便于存储和传输，一般将数据量化（比如8位量化），保存成二进制文件。