【论文#性能对比】 Future Video Coding Technologies: A performance Evaluation of AV1, JEM, VP9, and HM

本文链接：https://blog.youkuaiyun.com/weixin_42877471/article/details/142449129

《Future Video Coding Technologies: A performance Evaluation of AV1, JEM, VP9, and HM》
Author: Tung Nguyen; Detlev Marpe
Published in: 2018 Picture Coding Symposium (PCS)
Date of Conference: 24-27 June 2018
Date Added to IEEE Xplore: 06 September 2018
ISBN Information:
Electronic ISSN: 2472-7822
DOI: 10.1109/PCS.2018.8456289
Publisher: IEEE
Conference Location: San Francisco, CA, USA

摘要

本文提出并讨论了下一代视频编码方案的两条发展路线的客观性能与评估：开放媒体联盟（AOM）的AV1和联合视频探索团队（JEVT）的JEM。它们已经建立的前身，即AV1的VP9和JEM的高效视频编码标准（HEVC）作为此次评估过程的参考。使用了28个不同内容、不同分辨率和不同帧率的视频序列组成的大型测试集作为共同的数据基础。对于每个序列和每个测试候选，生成了四个不同的比特率点，与不同的重建质量相关联。以这种方式相对于它们各自的前身进行评估时，AV1和JEM在BD-BR显示出相当卓著的编码效率提升，分别约为23%和32%。此外，这项性能研究还揭示了压缩效率和计算复杂性之间存在不同的权衡，就编码器运行时间而言。与HM相比，JEM编码器需要大约8.5倍的运行时间，而AV1编码器相对于VP9的相应运行时间因子约为55.8。当比较下一代视频编码方案时，这项研究揭示了在相同客观质量下，AV1需要平均BD比特率开销约为49%，同时消耗JEM编码器2.47%的运行时间。

1.前言

对于比现有先进的视频编码方案所提供的压缩效率，视频编码的需求正逐渐日益增长。这种现象的一个原因是，通过互联网提供的视频颠簸服务日益普及，这挑战了现有的网络容量。另一个原因是，用户对观看体验的期望越来越高，导致部署具有更高的空间和时间分辨率、更高动态范围和更宽色域的视频格式。通常，这种视频格式也伴随着更高的原始数据率，以至于如果没有编码效率性能的相应飞跃，就无法经济地实现这种视频格式的任何流媒体或广播服务。

目前有两个独立的更高效视频压缩开发工作：开放媒体联盟（AOM）的AV1，以及联合视频探索团队（JVET）的JEM。行业驱动的开放媒体联盟（AOM）开发的AV1，以专有的VP9视频编码方案作为起点。另一方面，作为评估未来视频编码技术的实验平台的JEM软件，是建立在HEVC标准的HM之上。尽管这两项发展有不同的驱动力，但它们都有一个共同的目标：相对于现有视频编码方案提高压缩效率。在这种情况下，关于这两项发展在压缩效率方面的相对表现问题就出现了，并且已经从客观质量和主观质量两个方面进行了分析。但是，由于HM和VP9的码流语法已经确定，它们的编码工具集没有改变，AV1和JEM的性能仅表现发展的一个快照。

本文提出并讨论了AV1和JEM最新可用版本的性能评估。使用了2018年2月的AV1实现版本，以及同一日期可用的JEM软件7.1版本。观察到AV1和JEM相对于它们各自的前身都实现了显著更高的压缩效率。这种改进的代价是编码器运行时间的增加，这一观察结果看起来和之前提到的一样可以预测，不同之处在于发现编码时间消耗量与两个下一代候选者的观察到的编码增益成正比。除了这些方面，本文还分析并讨论了所谓的量化模式和VP9和AV1的可变比特率（VBR）模式之间的差异。

2.实验配置

2.1 测试序列

使用了从3840x2160到416x240的分辨率，其中3840x2160代表了下一代视频编码方案的开发重点

Resolution	Sequences
3840x2160	Tango、Drums100、CampfireParty、ToddlerFountain、CatRobot TrafficFlow、DaylightRoad、 RollerCoaster 、FoodMarket、ParkRunning
1920x1080	Kimono、ParkScene、Cactus、BasketballDrive、BQTerrace、RitualDance、Timelapse
1280x720	FourPeople、Johnny、KirstenAndSara
832x480	BasketballDrill、BQMall、PartyScene、RaceHorsesC
416x240	BasketballPass、BQSquare、BlowingBubbles、RaceHorses

2.2 测试场景

常见的视频编码应用需要所谓的随机访问（Random Access，RA）属性，允许用户在播放过程中随机跳转到特定点。这种属性可以通过定期插入刷新关键帧（Keyframe）并保持恒定距离来实现，其中刷新关键帧指的是仅由内部预测slice组成的帧（内部帧）。间隔通常约为1秒，并且在HM和JVET CTC中都由精确规定。具体来说，对于24/25Hz、30Hz、50Hz、60Hz和100Hz视频序列，所谓内部周期分别等于32、32、48、64和96帧。将序列帧率映射到内部周期的原因是HM和JEM在时间预测中使用了分层组帧（GOP）结构。默认情况下，两个CTC都描述GOP大小等于16，即每16帧插入一个关键帧。编码器通常首先开始编码keyframe，然后处理GOP内的剩余帧，这也意味着编码/解码顺序与显示/播放顺序不同。这样做，编码器可以使用双向预测等编码工具实现更高的压缩效率。因此，内部周期必须是GOP大小的倍数，这也意味着24/25Hz序列的刷新时间间隔约为1.3秒。整体配置被称为随机访问（RA）场景，是本次评估的场景。

2.3 HM和JEM的配置

实验使用了版本为16.18的HM软件和版本为7.1的JEM软件。这两个软件包都提供了预定义的编码器配置，反映了广泛使用的随机访问（RA）场景。更确切的说，GOP按照2.2中进行配置，编码工具参数调整为最佳压缩效率结果。两种编码器配置都采用了所谓的分层量化参数（QP）级联结构，在GOP内，这导致每个时间层的QP增加。给定一个基础QP，可以根据图片的时间层确定GOP内所有图片的QP值。基础QP也是恒定的，并且在视频序列编码过程中不会改变。使用固定QP结构的一个好处是，由于排除了码控算法的影响，使得比较不同视频编码技术之间的效果更加直接。

PS:
（1）使用RA配置
（2）使用GOP内分层QP结构
（3）基础QP是固定的

2.4 VP9和AV1配置

Command 1: VP9和AV1的基础配置使用10-bit internal processing，均方误差（MSE）失真矩阵，备选参考帧距离等于16
–best --tune=psnr -b 10 --min-gf-interval=16 --max-gf-interval=16 --cpu-used=1

VP9和AV1都实现了一种机制，通过使用双向预测来模拟GOP结构并利用更高的压缩机制。这种技术被称为备选参考帧（Alternative reference frames，ARF）。在随机接入（RA）场景中，这样的帧类似于HM或JEM GOP配置中最低时间层的keyframe。ARF可以是不同帧的集合，这些帧可能位于当前待编码帧的时间位置之前。这样的ARF在解码器端被解码，但不会被显示，而是可能使用常规编码帧，该帧仅使用ARF作为参考，并且整个帧采用skip模式。VP9和AV1中另一种类型的参考帧被称为黄金帧，这是一种位于过去且其过去的时序距离可以由编码器选择的帧类型。与HM和JEM配置结构相反，VP9和AV1编码器只接受命令行参数，并且只支持有限的可能性来控制编码工具设置。

Command 2: 使用固定QP结构的量化模式的附加配置。括号中的参数值仅做示例，可能会因操作点而异
–end-usage=q --min-q=[31] --max-q=[39]

为了模拟GOP16的行为，黄金帧和ARF的距离都被配置为16，由参数min-gf-interval和max-gf-interval控制。此外，cpu-used参数被设置为1，从而实现更快的编码。基本命令行参数在Command 1中。除了QP控制的量化模式外，VP9和AV1还支持使用码控中的VBR模式。使用码控引入了进一步的因素，使得直接比较变得困难。然而，两种模式都进行了测试（由end-usage参数控制），由于码控需要两次通过编码，所以参数passes被设置为等于2。对于第一组实验结果，即使用量化模式生成的结果，基础QPs是31、39、47和55，而不是用于HM和JEM的27、32、37和42，以便产生的比特率与HM和JEM的比特率相似。内部比特深度为10，等同于HM和JEM的10位内部处理

Command 3: 用于VBR模式的附加配置，结合目标比特率使用码率控制。括号中的参数值仅做示例，可能会因操作点和输入序列而异
–end-usage=vbr --passes=2 --min-q=0 --max-q=63 --target-bitrate=[6000]

由于作者认为VP9和AV1编码器可能会为非keyframe选择不同的QP，基础QP允许变化8，即参数min-q等于基础QP，参数max-q等于基础QP加8。在VBR模式下，min-q等于0，max-q等于63，使编码器完全控制QP选择。量化模式的附加命令行参数由Command 2给出，VBR模式的命令参数由Command 3中给出。

PS:
(1) Command 1 为基础配置
(2) Command 2 为量化模式配置（在Command 1基础之上）
(3) Command 3为VBR模式附加配置（在Command 1基础之上）

3.整体效率结果

结果分为两部分呈现，因为为VP9和AV1生成了两组结果，即使用量化模式的结果和使用VBR模式的结果。这些数字是以BD-Rate表示的比特率节省或开销。BD-Rate是从两条率失真（RD）曲线之间的区域计算得出的。因此，A相对于B的x比特率节省并不等于B相对于A的1/x的比特率开销。用于BD-Rate计算的是组合PSNR值：
$PSNR_c = \frac{ 6 * PSNR_Y + PSNR_U + PSNR_V }{8}$

3.1 使用量化模式的VP9和AV1的结果

VP9和AV1在量化模式下运行的实验结果如下表2所示。由于空间有限以及使用的测试集中BD-Rate结果非常相似，因此只呈现了摘要。表中的每列代表作用anchor的编码器，每行表示用作测试候选的编码器。例如，JEM列的BD-Rate值列出了使用JEM作为BD-Rate计算的anchor时，VP9、HM和AV1的比特率开销。测试的AV1和JEM版本相对于它们的前代产品都实现了更高的压缩率。具体来说，对于AV1相对于VP9的BD-Rate值约为23%，对于JEM相对于HM的BD-Rate值约为32%。VP9和AV1的结果均显示与HM相比有比特率开销，对于VP9的BD-Rate值约为74%，对于AV1的BD-Rate值约为31%。HM相对于JEM的比特率开销约为47%，而AV1相对于JEM的比特率开销约为89%

表2 使用量化模式的BD-Rate对比

	anchor
test candidates	\	VP9	HM	AV1	JEM
	VP9	\	73.5%	31.1%	154.8%
	HM	-40.3%	\	-21.7%	47.4%
	AV1	-23.4%	30.5%	\	89.3%
	JEM	-58.8%	-31.6%	-45.6%	/

PS:
(1) VP9相对于HM的码率变化，与HM相对于VP9的码率变化并不是倒数的关系
(2) VP9相对于HM而言，码率增加了73.5%；VP9相对于JEM而言，码率增加了154.8%
(3) AV1相对于VP9而言，码率减小了23.4%；AV1相对于JEM而言，码率增加了89.3%

表3总结了编码时间的对比。AV1和JEM两个持续开发的版本需要更多的编码时间来达到更高的压缩效率。JEM相对于HM的因子几乎是8.5，而AV1编码器所需的运行时间是其前代VP9的大约58倍。当使用HM作为anchor时，AV1编码器需要大约32倍多的编码时间，相对于JEM的因子约为4。

表3 使用量化模式的编码时间对比

	anchor
test candidates	\	VP9	HM	AV1	JEM
	VP9	\	0.56x	0.02x	0.07x
	HM	1.79x	\	0.03x	0.12x
	AV1	58.16x	32.45x	\	3.83x
	JEM	15.2x	8.48x	0.26x	/

PS:
(1) VP9相对于HM，编码速度为其0.56倍
(2) AV1相对于VP9，编码速度为其58.16倍

3.2 使用VBR模式的VP9和AV1的结果

在VBR模式下，即使用VP9和AV1提供的码率控制时，两个编码器都实现了比量化模式更高的压缩效率。表4总结了所有候选者在VP9和AV1以VBR模式运行时的结果。由于只生成了固定QP结构的结果，因此HM和JEM的结果保持不变。相对于HM，AV1的比特率开销模式从量化模式的约31%减少到VBR模式的2%。对于VP9也可以观察到类似的情况，量化模式下的开销约为74%，而在VBR模式下减少到35%。相对于JEM，AV1的比特率开销约为49%，而HM的比特率开销约为47%。

表4 使用VBR模式的编码码率对比

	anchor
test candidates	\	VP9	HM	AV1	JEM
	VP9	\	34.5%	30.2%	97.9%
	HM	-25.0%	\	-1.4%	47.4%
	AV1	-22.9%	2.3%	\	48.6%
	JEM	-48.7%	-31.6%	-32.0%	/

在VBR模式下，VP9和AV1的运行时间比量化模式少。具体来说，AV1相对于HM的运行时间因子已从32倍减少到约21倍。以JEM为anchor时，因子从3.8倍减少到2.5倍。

表5 使用VBR模式的编码时间对比

	anchor
test candidates	\	VP9	HM	AV1	JEM
	VP9	\	0.38x	0.02x	0.04x
	HM	2.66x	\	0.05x	0.12x
	AV1	55.82x	20.95x	\	2.47x
	JEM	22.58x	8.48x	0.40x	/

4. 分析与讨论

图1和图2分别显示了BasketballDrive序列的100帧的比特数和组合PSNR值，以时间序列的形式绘制。每个图表包含三个不同的时间序列，HM 16.18代表使用HM软件进行编码，AV1-RC代表使用AV1和VBR模式进行编码，AV1-QM代表使用AV1和量化模式进行编码。对于HM，每48帧出现一次峰值（BasketballDrive是一个50Hz的序列），显示刷新的intra-only的关键帧。由于帧内周期是48，应该由两个非帧内GOP在每个帧内周期之间，HM的时间序列描绘了这种行为。PSNR值的变化反映了使用固定QP的分层GOP结构，这也可以在图1中注意到。另一方面，对于使用量化模式的AV1，图2中的时间序列异常稳定，即图片之间的方差要小得多。有趣的是，从图1中可以看到，即使对于最小和最大允许QP的不同值，编码器似乎也没有利用其可能性，在使用量化模式的AV1中存在比特率分配的变化。然而，当AV1以VBR模式运行时，其PSNR图中显示出变化，但帧内和帧间keyframe之间的差异没有HM编码那么显著
在这里插入图片描述

5.结论

本文提出了一种性能评估，并对下一代视频编码两条独立发展线路（即AV1和JEM）进行了进一步分析。结果显示了当前的开发状态，并指出了在编码效率提升方面可能实现的趋势，以及在编码运行时间方面所需的计算成本。相对于其前身而言，AV1的压缩效率提高了23%（相对于VP9），JEM压缩效率提高了32%（相对于HM），代价是AV1的编码时间增加56.8倍，JEM编码时间增加8.5倍。此外，为了达到与HM相似的压缩效率，AV1需要比HM编码所需多出6.8倍的编码器运行时间