文章目录
基于卷积神经网络的的端到端的视频编码方法
河北师范大学
论文开题时间:2021年4月22日 发布时间: 2022年5月25日
现如今,传统视频压缩标准如H.264和H.265采用了混合编码框架。包括视频帧内预测,视频帧间预测,变换,量化,熵编码等编码模块。
一方面,传统视频压缩标准采用了混合编码框架,多个模块会带来较高的复杂度,现在利用神经网络模型有效的实现模块功能,利用其神经网络的非线性表示能力。另一方面,由于率失真优化的权衡,这个过程不可避免地会产生压缩效应,如块效应和振铃效应,大多数基于深度学习考虑使用联合优化的方式,将视频压缩整个框架以一个庞大的神经网络模型来实现。研究表明深度学习可以用于视频压缩,基于深度学习的视频压缩方案主要在这两方面上发展。
现如今,主要是以深度学习为主体,构建运动估计网络,运动向量编码及解码网络(主要通过自编码器来实现),运动补偿网络和残差网络,然后将这几个神经网络模型结合起来进行深层次的学习,并设计损失函数联合优化.将每个网络构建之后采取联合优化的方式进行训练。
基于深度学习的视频压缩方案,其主要方向有两个:一个方向是对传统视频压缩某个模块通过神经网络结构实现进行视频压缩,它试图基于学习的解决方案改进传统混合编码框架中的单个编码工具。另一个方向是端到端神经网络视频编码,将视频帧传入神经网络模型学习得到重构帧,以端到端学习的方式紧凑地表示输入视频。
不过基于深度学习的视频压缩算法还处于研究初期,从最开始是视频编码中某个模块设计有效的卷积神经网络来实现,到后来2018年出现了端到端优化的视频压缩网络模型。
自编码器
在深度学习中,自动编码器是一种无监督的CNN结构,自动编码器学习到输入值的隐含特征,这称为编码(coding),并且将学习到的特征通过一种CNN结构重构出原始数据,这个过程称作解码(decoding)。
自编码器存在三个特点,首先,自编码器是数据信息相关的,所以自动编码器只能压缩与训练数据相类似的数据或者样本。比如,使用人脸训练出来的自动编码器在压缩别的图片,比如树木时性能很差,因为它学习到的特征是与人脸相关的。其次,自动编码器不是无损的,解释为重构后的数据和原始的输入对比是退化的,比如,MP3,JPEG等压缩算法都是有损的,和无损压缩相比不一样。最后,自动编码器是深度神经网络,通过数据样本中学习特征,所以可看出容易对指定的输入数据训练得到特定的自编码器,而不需要完成任何新工作。
基于端到端学习的图像编码研究及进展
录用日期:2020-04-17
端到端学习省去了传统方法中需要手动设计、联合优化多个模块的复杂步骤,而是将输入通过一个多层叠加的神经网络,学习输入与输出的映射关系,并以此得到对应的输出。端到端学习的重要特点之一是让"数据说话"。
传统的图像编码器可分为变换、量化和熵编码三个独立模块,而端到端学习则是将三个模块联合进行整体优化。
变换
图像变换编码将空域图像像素转换为变换域系数,实现能量聚集的紧致表达,以达到压缩的目的。大多数压缩方法都使用正交线性变换来降低数据的相关性。国 际图像编码标准 JPEG 和JPEG2000分别使用的离散余弦变换和小波变换也均为线性变换。
但是正交线性变换中线性滤波器响应的联合统计量呈现了很强的高阶依赖性,为解决此问题可联合局部非线性进行增益控制。近几年,端到端学习将非线性变换融 入图像压缩框架中。
量化
由于目标失真函数主要使用梯度下降法优化端到端编码中的率失真,反向传播中要求量化函数全局可导,所以基于端到端学习的图像压缩研究 一直围绕着解决量化的不可导问题(量化不连续,其导数在任何地方都为零或无穷大)而展开。
为解决量化的不可导问题,最常见的方法是随机近似和用光滑导数近似的round方法。如今矢量量化相较于标量量化成为更具竞争力的量化方法,提出的软矢量和格型矢量的量化方法可在保证重建质量的同时又使模型具有可微性。

文章探讨了基于深度学习的端到端视频编码方法,利用自编码器实现图像和视频的压缩,并介绍了码率控制在视频会议场景中的重要性。此外,还讨论了基于强化学习的视频码率自适应决策,特别是在自适应流媒体传输技术中的应用,以优化用户体验质量。
最低0.47元/天 解锁文章
1015

被折叠的 条评论
为什么被折叠?



