深度学习在视频压缩算法中的应用
1. 初步成果
目前的初步结果显示,对于具有高动态的快进电影,在不降低质量的情况下,传输最佳匹配计算的运动矢量预测(MVP)所需的比特数有望减少 34%。
2. 整体方法概述
视频编码是编码器端对原始视频流应用的一种功能,目的是在传输速率和解码器端重建流的质量之间实现优化权衡。由于使用了各种非线性优化方案(如量化),理想的函数并非线性。有监督的神经网络在执行类似任务方面表现出色,因此可以采用更全面的方法来实现这种优化功能或其大部分内容,从而在不遵循标准视频编码方案的情况下实现性能提升。以下是几种提出的方法:
- 端到端率失真(RD)优化方案
- 下一帧预测
- 生成模型
- 内容感知编码
- 码率控制优化方案
3. 端到端 RD 优化方案
端到端方案对编解码器的完整块进行建模,并将率失真(RD)作为损失函数进行优化以获得最佳结果。例如,有使用不同神经网络替换标准编解码器功能块的端到端方案,也有完全偏离标准并引入全新神经网络复合体以获得结果的方案。以一种应用于图像的独特方法为例,其原理如下:
- 输入图像(x)位于数据空间,映射转换后的码空间(y)经过量化(用 q 表示)。
- 计算码率(R),再从码空间转换回数据空间,此时使用变换来推导失真(D)。
- 作者针对率和失真度量的加权和(R + λD)优化变换参数(∅)和(θ)。
相关公式如下:
[y = g_a (x; ∅)]
[\hat{x} = g_s(\hat{y}; θ)]
[\hat{z} = g_p(\hat{x})]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



