论文名字 | Perceptual-Based HEVC Intra Coding Optimization Using Deep Convolution Networks |
来源 | 期刊 IEEE Access 中科院二区 |
年份 | 2019.5.3 |
作者 | XUEBIN SUN, HAN MA, WEIXUN ZUO, AND MING LIU |
核心点 | 提出一种结合显著图的改进的率失真优化方法(RDO),用于自适应调整比特率分配。 |
阅读日期 | 2020.11.14 |
影响因子 |
|
页数 | 9 |
引用数 |
|
引用格式 | Sun X , Ma H , Zuo W , et al. Perceptual-based HEVC Intra Coding Optimization using Deep Convolution Networks[J]. IEEE Access, 2019, PP(99):1-1. |
内容总结 | |
文章主要解决的问题及解决方案: 用人眼关注区域提升比特率,非关注区域降低比特率,而不影响观感的方法,在有限的带宽下,提升传输视频的观看质量。
文章的主要工作: 文中策略主要包括两个技术:显著性图提取和智能比特率分配。显著性图更符合人类视觉系统,基于显著图设计了一种改进的码率失真优化方法(RDO),用于自适应调整比特率分配。 获得0.64dB的PSNR提升,与HM16.7相比平均节省了3.02%的比特率。对于会话视频,该方法可以显著降低8.65%的比特率。 文章内容: ①设计了一种基于显著图特征的率失真优化方案。 ②使用VGG Net作为基础网络,如图所示是文中提出用于提取显著图的网络模型。作者将最后一层用全局平均池化层代替softmax,并使用sigmoid激活函数。平均池化层输出最后一个卷积层中每个单元特征图的平均值,这些值被加权并用于生成最终的输出,计算最终卷积层的特征图的加权和,以获得显著图。在JCT-VC数据集上测试网络模型。 ③作者优化网络的策略是减少ImageNet的分类类型,将相似结构的合并一类。优化网络的目的是降低网络计算量,保证实时传输。 ④率失真cost表达式: 式中SSE表示残差平方和,Bit表示编码比特率,λ是拉格朗日乘数,它充当失真和比特之间的加权因子。其中,λ表达式为: 式中α是一个常数,根据实验定义。QP是量化参数。λ起着重要作用,更大的λ导致更低的比特率和更高的失真,反之亦然。但λ只是QP的一个函数,QP不关注人类视觉系统感知。 ⑤文中将显著图纳入RDO过程,以指导拉格朗日乘数的调整。通过深度卷积神经网络获得的显著图是一个8位的灰度图像。显著图也被分割成64x64编码树(CTU)。 ⑥基于内容感知的RDO表达式为: Saliency CTU是每个CTU的所有像素总和,分配更多的比特,Saliency CTU进行高质量的编码。k限制在闭区间[m,n]。m,n是根据经验确定的,与比特率和失真有关。m决定了不显著区域的编码质量和比特率,该值越大,分配给不显著区域编码的比特率越小。n与显著区域的编码性能有关,n值越小,图像质量越高。 ⑦根据经验确定m和n大小为2和0.5。对于会话视频,文中定义了一个更大的m来节省带宽,对于F类会话视频来说,人们对背景的关注较少,使用m=6,n=0.5。 ⑧作者使用QPs等于22、27、32、37做测试。使用不同的QP值是为了体现在高比特率(QP=32)和在低比特率(QP=37)的时候的面部细节。 ⑨性能评估:性能是根据比特率、编码时间和PSNR来测量的。计算了整幅图像、显著区域和非显著区域的PSNR差。为了评估比特率和编码时间性能,作者考虑了ΔBR ⑩在实验中,文中对高分辨率图像进行降维处理,并将其投影到低维空间,利用DCN提取重要度图。因此,对于高分辨率视频,编码时间只有很小的增加。然而,对于低分辨率视频,由于大部分时间花费在显著图提取上,编码时间增加。
实验结果: |