Content-Aware Convolutional Neural Network for In-Loop Filtering in High Efficiency Video Coding阅读笔记

最新推荐文章于 2022-04-15 19:01:20 发布

_,_

最新推荐文章于 2022-04-15 19:01:20 发布

阅读量507

点赞数

分类专栏：论文文章标签：计算机视觉视频编解码

本文链接：https://blog.youkuaiyun.com/xspyzm/article/details/117473266

版权

论文专栏收录该内容

30 篇文章

订阅专栏

本文提出了一种基于深度学习的内容感知环路滤波方法，用于视频编码。通过分析网络深度、连接单元结构和参数优化，设计了一种多CNN模型，每个模型针对不同内容特征。使用判别网络根据CTU内容自适应选择CNN模型，以提高编码性能。实验表明，这种方法在不同配置下显著降低了码率，提高了视频质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文来源：TIP 2019

作者：北大

概述：

这篇论文的主要创新在于提出了用多个CNN来建模，同时设计了一个内容鉴别网络来根据输入自适应的选择哪一个CNN来进行增强，并进行了多个实验来探究网络深度、多尺度连接模块和网络参数的最优解。
作者首先通过实验确定了最优网络深度，然后又通过对比实验确定了连接单元的最优结构：采用了一个3*3和一个5*5的双分支结构，将提取到的多尺度特征相乘，从而达到多尺度特征融合的效果。
其中dropout的概率为1，相当于没有连接。至此，单CNN网络结构设计完成，但作者发现应用单个CNN对整张图像增强会出现部分块效果变差的情况，因此提出了一种改进的多CNN候选模型环路滤波技术，通过用一个鉴别网络来为每个CTU根据其内容自适应的选择CNN模型进行重建，从而改进单个CNN在部分块的增强效果差的缺陷。这里的多CNN网络是通过将训练集划分为N份后对网络进行微调得到的，同时计算出每个CNN对于每个样本的PSNR增量，这样便可以训练鉴别网络使得每个样本尽可能的分给能为它带来最大PSNR增量的CNN。

Abstract

近年来，卷积神经网络（CNN）引起了人们的极大关注，并在许多图像处理任务中取得了巨大的成功。本文将CNN技术与图像恢复相结合，以提高视频编码的性能，对于环路滤波的高效视频编码（HEVC）提出了基于内容感知的CNN。特别地，我们从多个维度定量地分析了所提出的CNN模型的结构，使得该模型对于基于CNN的环路滤波具有可解释性和最佳性。更具体地说，每个编码树单元（CTU）被视为一个独立的处理区域，使得所提出的内容感知多模态滤波机制是通过在判别网络的指导下用不同的CNN模型恢复不同的区域来实现的。为了对图像内容进行自适应，利用判别神经网络分析各区域的内容特征，对深度学习模型进行自适应选择。CTU级别控制也在率失真优化的意义上启用。为了学习CNN模型，提出了一种迭代训练方法，在CTU级同时标记滤波器类别，并对CNN模型参数进行微调。在HEVC中实现了基于CNN的环路滤波器，实验结果表明，该方法显著提高了编码性能，降低了10.0%的码率。平均而言，在所有帧内、低延迟、低延迟P和随机接入配置下，可以分别获得4.1%、6.0%、4.7%和6.0%的比特率降低。

I. INTRODUCTION

balabala

本文的目标是通过多个CNN模型和相应的判别网络来实现内容感知的环路滤波器，以更好地适应不同内容特征的图像。综上所述，本文的主要贡献如下：

分析并设计了一种具有初始结构的全卷积网络结构[27]，以提高视频编码中重建帧的质量。基于所提出的CNN结构，提出了一种基于多CNN模型的内容感知环路滤波方案，以实现高效的视频编码。
我们采用判别网络自适应地为每个CTU选择CNN模型。因此，将内容自适应选择合适的滤波参数转化为分类问题，并用数据驱动的DL方法求解。
研究了一种迭代训练策略来学习多个CNN模型，实现了对近似最优模型参数和内容类别的同时学习。大量的实验证明了所提出方法的有效性。

II. RELATED WORK

balabala

III. PROPOSED SINGLE CNN MODEL

A. Network Depth Analysis

一般来说，DL社区都有一个共同而简单的理念，即网络越深，性能就越好，特别是对于高级视觉任务[47]，[48]。然而，在图像恢复、环路滤波等底层问题中，深度的确定要根据网络结构和具体应用情况而定。为了更好地理解网络深度对环路滤波性能的影响，我们进行了实证分析，探讨了不同深度的网络性能。我们设计了几组不同深度（N）的平面网络，它们由一堆卷积（conv.）层和ReLU[49]（最后一层除外）组成，如图1所示。应该注意的是，前N-1层有64个信道用于特征提取，最后一层用1通道来重建图像。特别地，N层全卷积网络可以如下所示。

其中X是输入patch，wi和bi分别记录第i卷积层的权重和偏差。∗ 表示卷积操作。特别地，应该注意的是，在恢复模型中没有池化层，因为池化可能导致不可逆的信息丢失，从而损害重建质量。

值得一提的是，在我们的分析中，为了公平比较，除了这些网络的不同深度外，我们控制所有其他变量，包括训练集、patch大小、训练超参数和硬件环境都是相同的。在不失一般性的情况下，我们将量化参数（QP）设为37。我们首先使用HEVC压缩BSDS-500数据集[50]，QP=37，然后随机选取380张图像进行训练，10张图像进行验证，剩下的图像进行测试。每个图像以步幅22被分成38× 38的块，用于训练和验证。此外，我们部署训练好的模型来恢复HEVC压缩的测试图像。不同深度网络的恢复能力如表一所示，由此可知，深度为7-11层的网络具有相似的恢复能力。但是，九层网络的性能比其他网络好得多。因此，我们在模型中选择网络深度为9。

B. Proposed Connection Units

我们在图2中说明了所提出的连接单元以及文献中的三种典型连接单元，它们都包含初始结构。这四种连接单元的主要区别在于初始结构的核大小和单元输入输出之间的残差连接类型。关于连接单元类型的指定，在指定过程中考虑了三个主要因素。第一种设计理念的灵感来自于inception结构[27]，它为不同的分支引入了可变的卷积核大小，以提取可变大小的特征。其次，继[51]之后，感受野相对较小的卷积核（3× 3和5× 5）被应用到我们的模型中来建模更多的非线性。此外，我们进一步从输入中部署残差连接[47]，实现残差学习，从而加快训练阶段的收敛速度。

如图2（a）所示，我们提出的连接单元有两个分支分别采用3*3和5*5的卷积核。随后，在输出之前将两个分支串联起来（我们为conv部署了相同的填充机制，以确保作为输入的空间分辨率一致，从而可以轻松实现串联）。同时，在单元的输入和输出之间部署了dropout连接（我们将dropout概率定义为1）（也就是让神经元的激活值以概率1停止工作，相当于这里没有连接）。在图2（b）中，相同的核大小（都是3×3）用于两个分支。对于图2（c）和（d），卷积层的内核大小分别与图2（a）和（b）相同。唯一的区别是残差连接变成了每个单元的输入和输出之间的恒等连接(shortcut)。

为了验证所提出的连接单元对其他三种不同连接类型的有效性，我们对四种不同连接类型的恢复能力进行了比较。与前一阶段一样，为了进行公平比较，除连接类型外，所有其他变量都受到控制。根据前面的分析，网络深度设置为9。如图1（b）所示，每个连接块被上述单元替换以进行恢复能力比较。四种模型的平均峰值信噪比增益见表二。很明显，我们提出的连接单元类型在PSNR增益方面显示出最好的恢复能力。因此，这类分析显示了提出的连接单元类型的效率。（看起来多尺度卷积核的使用对网络更有效）

C. Parameter Reduction

基于前面两类定量比较，我们已经证明了图1（b）中描述的网络，深度为9，多尺度初始结构（dropout_3× 3_5 × 5连接单元类型）可以实现最高的恢复性能。

然而，由于最优选择中有太多的参数和特征映射（每层64个通道），因此肯定有冗余卷积核，并且不适合使用过多的参数进行环路滤波。因此，为了获得相似的恢复性能，我们迫切需要减少参数量。我们首先将dropout的每个分支中的特征映射通道数从64个减少到32个重新训练模型。值得注意的是，在我们的单一CNN模型中没有max-pooling，因为max-pooling操作将丢失信息并使信号恢复变得困难。随后，前两个dropout单元的位置是第1层和第3层。最后，图1（b）中的第四个dropout_3*3_5*5单元缩减为单个3×3卷积层，进一步减少转换内核参数的个数。因此，图1（c）中示出了所提出的单CNN模型的结构。

在本分析中，与前两小节类似，我们还控制了所有其他变量，唯一的区别是图1（b）和图1（c）中的网络结构。我们在图3中绘制了两个模型不同迭代次数下的恢复性能。在测试图像上评估恢复性能时，我们可以观察到，与图1（b）中的原始优化模型（图3中的红色曲线）相比，参数化版本（图3中的绿色曲线）的性能损失可以忽略不计。

IV . CONTENT-AWARE CNN BASED IN-LOOP FILTERING

在本节中，我们详细介绍了所提出的基于CNN的内容感知环路滤波，如图4所示。特别是，应用于每个CTU的CNN模型是根据CTU的内容完全自适应的。因此，通过局部自适应环路滤波可以获得更好的编码性能。首先，提出了一种用于在环路滤波的单CNN模型的网络结构。随后给出了各层的详细网络结构和训练过程中的超参数。针对单CNN模型固有的局限性，提出了基于环路滤波的多CNN模型来适应不同的纹理特征。为了选择合适的CNN模型，我们学习了一个判别网络来推断每个CTU的CNN模型。此外，为了同时学习网络参数和模型类别，还引入了迭代训练机制。

A. From Single Model CNN to Multiple Model CNN

所提出的单一CNN模型的网络结构如图5所示。为了提供对单一模型更直观的解释，每个转换层的网络配置如表3所示。每层的滑动步长为1。为了在每个卷积层前后保持分辨率的一致性，使用了零填充。特别地，3*3卷积padding是1，5*5是2。除最后一个卷积层（式（3））外，每个卷积层均采用ReLU进行非线性激活。

1) Single CNN Model Training:

我们利用BSDS-500数据集进行单一CNN模型训练。BSDS-500中的所有图像都由标准HEVC（HM-16.9）压缩，所有帧内（AI）配置中都使用公共测试条件（CTC）。为了区分不同的质量等级，网络根据不同的QP间隔分别进行训练。特别地，我们通过使用每个QP在相应的时间间隔内压缩的所有训练数据来训练每个QP时间间隔的最优CNN模型。具体地，每个QP间隔包含5个连续的QP值。为了简单起见，本文使用最小的QP值来表示相应的QP间隔。在推理过程中，通过将当前切片的QP值映射到最近的QP间隔来选择模型，即当当前切片的QP为25时，则使用QP=22的模型。整个数据集被分成两部分：380张随机选取的图像用于训练，20张图像用于验证。为了生成单个CNN模型的训练样本，所有压缩图像被裁剪成38帧× 38个小补丁，步幅22。

这里，让（xi，yi）表示第i个训练样本，其中xi是HEVC压缩块，yi表示相对应的原始数据。因此，CNN训练的目标函数是最小化欧氏损失函数，

其中，封装了网络的权重和偏差，表示单一的CNN模型。此外，在方程（4）中引入L2范数正则化项，以防止训练过程中的过拟合，β 是惩罚因子。选择Adam[52]对目标函数进行优化，该方法能够自适应地调整梯度并更新每个参数的结果。

我们的模型由Caffe[53]训练。表IV列出了我们提出的单CNN模型的超参数设置。在训练过程中采用了渐进式训练方法。具体地说，我们首先完全从头开始训练QP=37区间的模型，并将其作为初始化网络参数来训练较小QP区间的模型等。对于QP=37，基本学习率（base_lr）设置为0.1，而对于其他QP区间，基本学习率（base_lr）设置为0.01。超参数Gamma是基本学习率的退化因子，意味着学习率训练期间每15个epoch（步长）减小50%。Momentum和Momentum2是Adam在训练过程中自适应计算梯度的两个超参数。在网络训练过程中，我们首先用固定的学习率（baseu-lr）训练每个区间的模型50个周期，然后用步进学习率（baseu-lr从0.1开始）再训练50个周期直到收敛。

2) Drawbacks of Single CNN:

对于每个CTU，环路滤波的率失真（R-D）性能可以表示为：

其中和表示基于CNN的环路滤波前后的失真，表示基于CNN的环路滤波后的失真变化，R表示发送环路滤波器控制标志的编码位，Langrange乘子λ 控制率和失真之间的折中。因此，环路滤波的性能是由JCTU反映出来的，一个低的JCTU表示更好的恢复性能。在图6中，示出了质量变化图，其中可以观察到质量提升和退化。很明显，一个单一的模型不能处理一个框架中的不同内容，而且单一CNN模型会导致一些区域的性能损失。

为了解决这一问题，提高环路滤波的适应性，提出了一种改进的多CNN候选模型环路滤波技术。因此，每个CTU可以自适应地选择最优的CNN模型，以获得更好的恢复性能。为了离线学习CNN模型，提出了一种迭代训练方案。更具体地说，训练样本可以以数据驱动的方式分为几个类别来实现多CNN模式，这能够涵盖广泛的内容特征。为了在编码端和解码器端为每个CTU导出合适的模型，采用判别网络来推断最优CNN模型。

B. Discriminative Network for Model Selection

用于CNN模型选择的判别网络（Discrimnet）是基于Alexnet[48]的一个轻量级修改而实现的。判别网络的网络结构如图7所示。更具体地说，有5个卷积层（可变感受野，11×11, 5×5和3×3）和2个最大池化层，内核大小为3×3.为了更快地收敛，在每个池层之后还使用了批规范化[54]。每个卷积层的特征映射数为96、96、192、192、128。需要注意的是，我们在所有卷积层和全连接（fc）层（最后一个fc层除外）之后添加了ReLU作为激活函数。四个卷积层的步幅值为4、2、1、1，前两层没有填充。关于描述的更多细节可以在表V中找到。

判别网络将每个CTU作为输入，生成一个N维特征向量来分类，其中N表示CNN模型的数量。为了从候选模型中选择最佳模型，softmax操作被应用于N维特征向量的每个元素。最优CNN模型由softmax后的最大元素指标确定。借助于Discrimnet，将模型选择问题转化为分类问题，并以数据驱动的方式进行求解。下一小节将介绍Discrimnet的训练细节。

C. Multimodel Iterative Training Mechanism

为了得到多个CNN模型，提出了一种新的训练方案，同时迭代优化CNN模型参数和模型类别。首先介绍了该训练机制的初始化过程，包括单CNN模型训练、恢复图像的质量排序和微调。

Single CNN Model Training.

如第III-A节所述，首先使用来自BSDS500的训练数据训练初始单个CNN模型。

Quality Ranking of the Restored Images.

学习的单CNN模型用于恢复BSDS-500数据集生成的所有训练样本。单个CNN滤波前后峰值信噪比（PSNR）的质量差计算如下：

其中，记录第i个训练样本xi在单一CNN模型滤波之后的PSNR值，ψi表示滤波前的峰值信噪比。因此，所有训练样本都可以按按降序排列。

Fine-Tuning.

为了生成N个初始化的模型，训练样本被等分为N个折叠。利用每一次分割的训练样本对单个CNN模型进行微调。用于微调的超参数保持与单个CNN模型训练相同。因此我们可以在微调收敛后得到N个初始化CNN模型。

因此，我们可以得到N个初始化的CNN滤波器模型，根据该模型，每个训练样本可以标记一个索引，

索引表示适当的CNN模型，以适应xi的内容特征。这里还值得一提的是，当采用不同的CNN模型时，R-D优化中只有失真作为编码比特才可以作为常数。

1) Iterative Training Mechanism:

在初始化过程的基础上，通过对多个CNN模型进行微调，并在每次迭代中同时标记索引，实现了所提出的迭代训练机制。算法概述在算法1中。

更具体地说，在每一次迭代中，通过对训练样本的自适应划分，对N个CNN模型进行微调，使得微调后的模型可以根据不同的纹理特征进行优化。经过迭代训练过程，可以得到相应的N个CNN模型。

2) Training Discrimnet:

与CNN模型训练不同，Discrimnet采用未压缩的彩色图像数据集（UCID）[55]生成训练样本。UCID包含1328张图像，我们随机选择1200张进行训练，剩下的进行验证。同样，所有测试图像首先通过标准HEVC帧内编码进行压缩，然后裁剪成64× 64的小补丁。利用压缩后的图像和由式（8）导出的相应标号训练判别网。为了训练判别网络，我们直接采用了步进学习率策略，从0.1开始，每10个阶段的退化因子为0.1。Discrimnet的超参数设置如表VII所示。

D. Syntax Element Design for CTU Control Flag

为了保证在R-D意义下的最优性能，本文在CTU级和帧级设计了语法元素控制标志。对于CTU级控制，为每个CTU添加一个标志，以使所提出的环路滤波能够提供更好的局部自适应，即第i个CTU的。特别地，当滤波后的CTU的率失真性能变得更好时，相应的控制标志被启用，指示所提出的环路滤波被应用于该CTU。否则，该标志将被禁用，并且提出的方案不适用于此CTU。在确定一帧中的所有ctu之后，每个颜色通道的帧级RD成本降低计算为

其中Dc和¯Dc分别表示提出的环路滤波前后的帧级失真。Rc和¯Rc表示两种场景的编码位，λ 是拉格朗日乘数。如果Jc>¯Jc，则启用帧级标志，表示建议的环路滤波应用于当前帧。因此，相应的帧级和CTU级控制标志用信号发送到比特流中。否则，帧级标志被禁用，并且CTU级控制标志将不会被进一步编码。

考虑到编码效率和复杂度，我们提出在该方案中对亮度分量采用CTU级控制，对色度分量采用帧级控制。控制标志的语法元素结构如表六所示。所有帧级标志都在SAO语法元素之后的位流片头中编码，CTU级标志嵌入到每个相应的CTU语法中。需要注意的是，如果luma通道的帧级标志为false，我们就不再发送CTU标志，因为整个帧的过滤都被关闭了。

V. EXPERIMENTAL RESULTS

为了验证所提方案的有效性，我们将所提出的内容感知环路滤波集成到HEVC参考软件HM-16.9中。在这一部分中，首先提供了客观评价和主观可视化，并说明了该方法的BD-rate[56]性能，并与其他基于CNN的环路滤波算法进行了比较。随后，给出了编码和解码的复杂度以及运行时GPU内存带宽的使用情况。最后，通过实证分析说明了帧级语法的影响。

A. Testing Conditions

Caffe[53]库被集成到HM-16.9中，用于对CNN模型进行环路滤波。更具体地说，提出的环路滤波合并在SAO过程之后。多个CNN模型仅用于亮度通道，两个色度通道采用单个CNN模型。此外，该方法的模型对不同颜色分量进行独立训练。

测试了4个典型的QP值，包括22、27、32、37。实验在HEVC-CTC环境下进行，包括所有帧内（AI）、低延迟（LDB）、低延迟P（LDP）和随机接入（RA）配置。所有实验的anchor是HEVC参考软件（HM-16.9）同时启用解块和SAO获得的。使用从A类到E类的HEVC测试序列[57]，压缩总长度序列以进行性能验证。此外，迭代时间K被设置为2。

B. Objective Evaluations

本小节从多个角度进行了深入的客观评估。所提出的单CNN模型的BD速率降低如表VIII的第一行所示，其中可以观察到AI、LDB、LDP和RA配置分别可以实现3.0%、3.9%、3.7%和3.9%的比特率节省。CNN模型数量的增加（N=2,4,6）在表VIII的第二行到最后一行报告。我们应该注意到，表八中的表现是A-E级的总体平均表现。很明显，在一定的N范围内，编码性能随着CNN模型数的增加而增长，当模型数大于4时，编码性能趋于饱和。此外，对于每个序列，具有CTU级控制的方案（N=8）的性能如表IX所示。特别地，在四种不同的编码配置下，luma信道的平均比特率分别降低了4.1%、6.0%、4.7%和6.0%。基于表VIII和表IX，可以证明所提出的基于CNN的环路滤波方法的有效性。随着N个数的增加，所提出的迭代训练方法也表达了对不同内容特征的适应能力。此外，对于序列Four People，在帧间编码中可以实现10%以上的比特率降低。（环路滤波对编码为什么会有影响）

在图9中，根据所采用的CNN模型的数量（N）绘制了所提议方案的性能以及上界性能。在这里，上界是通过对编码器端的所有模型进行基于R-D的完全决策来选择最佳模型来实现的。在这种情况下，当判别模型的准确率达到100%时，最佳模型指标并没有达到理想的性能。从图中我们可以看出，当N>6时，该方案的性能是一致的，而且该方案的性能非常接近于上界性能，这进一步证明了判别器在选择合适的CNN模型进行inloop滤波时是有效的。在图8中还描述了率失真性能比较，这表明所提出的方法实现了良好的泛化能力，并且在不同配置下获得了一致的编码性能。

此外，我们还将该方案与其他采用in-loop滤波算法的CNN结构进行了比较，包括VRCNN[25]和VDSR[58]。特别是，VRCNN是一个五层全传输网络（FCN），VDSR具有非常深的FCN，专门为单图像超分辨率（SISR）设计。从表X可以看出，该方法得到了6.0%的luma分量编码增益，而[25]和[58]中的方法分别得到了3.1%和2.5%的BD率降低。很明显，在RA配置下，我们提出的方案优于这两种典型的基于CNN的算法。

此外，还与非CNN的环路内滤波方法（如ALF）进行了性能比较，验证了该方法的有效性。具体来说，我们比较了ALF和本文提出的方法在降低BD速率方面的编码性能。值得一提的是，仿真平台为HM-16.9，采用CTC技术，并对luma信道的编码性能进行了研究。从表XI中可以看出，对于四种不同的配置，ALF分别获得了2.0%、2.7%、4.0%和3.0%的BD率降低，而所提出的多模型方法为每种情况节省了4.1%、6.0%、4.7%和6.0%的BD率。显然，该方法的性能优于ALF算法，并获得了更好的编码效率。为了进一步验证ALF和基于CNN环路滤波器的性能，我们进行了另一组实验，结果表明，当ALF也被使用时，所提出的方法还可以实现2.9%、3.7%、3.8%和3.6%的BD速率降低（我们应该注意，在这类实验中CNN位于SAO和ALF之间），这使我们确信，该方法是下一代视频编码标准的一种有竞争力的编码工具。从表XI的最后四列可以看出，基于CNN的环路滤波算法与传统的基于Wiener滤波器的方法具有兼容性，因为它在ALF的基础上还获得了很好的编码增益。

C. Subjective Evaluations

主观比较是评价视频编码中环路滤波算法的必要条件。在这一小节中，我们在图10和图11中进一步比较了重建帧的视觉质量。两个来自Basketball Drill的帧和Four People被用作插图。为了更好的显示效果，还对框架进行了裁剪。很明显，由于基于深度学习方法的泛化能力，我们提出的方法可以有效地去除不同类型的压缩伪影。此外，细心的观察者可能会发现，在基于块的编码过程中退化的结构也可以通过所提出的方案来恢复，例如地板和直线的纹理。其根本原因在于我们基于知识的方案能够恢复丢失的信息。此外，该网络具有参数量大、感受野层次可变等特点，能够有效地表达视觉信号的高阶信息，重构缺失的细节。因此，通过所提出的方案处理的帧比现有的sota方法具有更高的视觉质量。

D. Complexity

在这一小节中，报告了所提出方案的编码和解码复杂度以及GPU内存消耗。为了评估算法的时间复杂度，我们在关闭超线程的情况下测试了该算法，并记录了编码和解码（enc/dec）的时间。测试环境为Intel i7 4770k CPU，并使用了最新版本的Caffe[53]。我们使用NVIDIA GeForce GTX TITAN X GPU进行测试，GPU内存为12GB。另一方面，操作系统是Windows1064bit HomeBasic，PC的内存是24GB。HEVC参考软件和Caffe使用Visual Studio 2013终极版进行编译。

在评估编码复杂度开销时，的计算公式为：

式中，T是HEVC参考软件（HM-16.9）的原始enc/dec时间，T’是提出方法的enc/dec时间。所有的复杂度评估都是通过GPU加速进行的，这样CNN滤波和鉴别网的前向操作由GPU操作，其余操作由CPU执行。从表XII可以看出，平均编码复杂度开销为113%，而解码开销为11656%。由于网络中的前向操作和CPU-GPU内存复制操作，该方案对解码时间影响很大。此外，Discrimnet中的全连接层也给解码过程带来了很大的复杂性。VDSR[58]和VRCNN[25]的编码复杂度分别为135%和110%，而ALF[11]相对于HEVC基线只增加了4%的编码时间。三种方法的译码复杂度分别为13753%、4459%、123%。

CNN模型的存储消耗和运行时GPU内存带宽也列在表XII中。模型大小由三部分组成：Discrimnet、luma的多CNN模型和两个色度通道的单模型。值得注意的是，AI、LDB、LDP和RA配置的大小是相同的。具体来说，每个CNN模型的大小为1.38MB，而每个Discrimnet模型的大小为10.80MB。总模型大小等于（N×1.38+1.38+1.38+10.8MB），其中N是型号。因此，需要14.94∼20.6MB存储每个QP间隔的训练模型。关于VDSR[58]和VRCNN[25]，模型大小分别为2.54MB和0.21MB。由于提出的方法对每种情况都有一个包含fc的判别网。用于分类的图层。因此，与现有的两种方法相比，该方法的平均模型大小较大，但仍在合理的范围内。至于GPU内存带宽使用，当N从1到8时，运行时需要370∼1428MB的GPU内存。VDSR[58]消耗1022MB的运行时GPU资源，而VRCNN[25]的值是155MB。进一步的优化可以通过剪枝和分解训练后的深度模型的权重矩阵来实现，以加快网络的正向操作。

关于快速算法在未来工作中的潜在研究，特别是降低复杂度的方法主要有两种。首先，受神经网络推理加速的最新进展[59]，[60]的启发，我们可以部署相关的新兴技术，如剪枝、权重量化和矩阵分解，以避免当前模型中的浮点运算，从而显著减少解码器的运行时间。第二，训练后的CNN模型的推理依赖于第三方DL框架。在我们未来的工作中，我们将减少HEVC编解码器和DL框架之间的交互所带来的开销。通过上述两种方法，解码器的运行时复杂度有望降低。

E. Impact of Frame-Level Syntax

在该方法中，帧级标志用于每个信道。在基于CNN的环路滤波中引入帧级语法有两个主要原因。首先，我们进行了实证分析来说明框架级语法的有效性。我们保持CTU级标志与所提出的方法相同，并且始终启用帧级语法。参考文献是本文提出的单一模型。如表XIII所示，如果始终打开帧级语法，则对于AI、LDB、LDP和RA配置，luma信道编码性能损失将分别为0.0%、0.5%、0.4%和0.4%。此外，我们可以观察到，对于AI配置，BD速率保持不变。这是因为在帧内编码中没有使用运动补偿，因此对于滤波帧没有错误传播。然而，关于帧间编码情况，先前编码的帧被用作运动补偿的参考帧。因此，我们需要帧级标志机制来阻止错误传播。实验结果还表明，帧级语法在LDB、LDP和RA等基于运动补偿的编码结构中更为有用和必要。其次，SAO是HEVC中现有的一种环内滤波编码工具，它利用帧级编码来保证编码效率。基于CNN的循环过滤技术也应采用类似的规则和语法设计，以保持设计与现有标准中的编码工具的一致性。因此，帧级别标志是必要的。

总结：我对编解码还没有太多的了解，只从网络角度来总结一下

1. 首先通过实验找到最合适的网络深度

2. 提出一个多尺度（3*3+5*5）连接模块来有效地提取特征

3. 在不损失性能的前提下对网络参数进行裁剪

4. 由于单CNN网络的缺陷，采用多个CNN模型，用一个鉴别网络来为每个CTU根据其内容自适应的选择CNN模型进行重建。