利用生成对抗网络提高视频质量
1. 引言
视频流已成为日常生活中的基础技术,娱乐、教育和通信领域对其依赖程度日益增加。近年来,5G 等网络技术的发展以及现代视频编解码器的进步,推动了视频流的发展。尤其是新冠疫情在全球蔓延后,人们因紧急情况居家,视频会议成为商务会议、讲座以及与亲朋好友交流的主要通信方式,这使得网络流量大幅增加,给全球网络带来了巨大压力,导致用户体验下降。
为了传输或存储原始视频,需要对其进行压缩以减少带宽和存储需求。然而,压缩会降低视频的感知质量,其程度主要取决于可用带宽和压缩算法。许多视频编码算法采用人类视觉系统模型来尽量减少感知质量的损失,但这些算法往往忽略了视频的语义信息,可能会将比特率分配到不重要的区域,从而影响观众对关键信息的观察质量。例如,在视频通话中,现代视频编解码器可能无法突出说话者的面部。
与之相反,计算机视觉技术能够准确识别物体、评估语义,并为编解码器提供提示,使其在重要区域分配更多比特率,同时对用户体验的影响较小。近期,计算机视觉领域的一些研究致力于解决压缩视频质量下降的问题。其核心思路是对视频进行高度压缩和子采样,尤其是在不重要的区域,然后利用生成对抗网络(GANs)重建压缩区域,让用户获得与高比特率压缩视频相当的体验。在实时应用(如视频通话)中,该解决方案需要在平板电脑和智能手机上实时运行。
2. 相关工作
提高视频质量的技术主要可分为两类:
-
视频和图像恢复
:旨在将压缩后的图像或帧恢复为高质量的图像,消除压缩伪影并重建丢失的细节。过去,许多方法基于图像处理技术,近年来,基于深度学习的方法逐渐受到关注,如使用深度卷积架构将受压缩伪影影响的图像转换为高质量图像。首个使用卷积神经网络(CNNs)去除压缩伪影的工作是针对 JPEG 压缩的,而后续的一些工作采用了通用架构,如具有残差学习和跳跃连接的架构,这些架构能让信息从早期层直接传播到最终重建层。此外,使用生成对抗网络(GANs)可以获得更令人满意的感知结果,通过预测编码参数,GAN 可以在不了解编码信息的情况下对各种编码器进行图像恢复。
-
视频和图像压缩
:语义视频编码技术可用于解决带宽需求问题。其基本思想是识别对观众更重要的帧区域,根据其感知重要性或是否包含感兴趣的对象,自适应地分配更多比特率进行编码。主要有基于视觉显著性和基于对象的两种视频编码研究方向。基于视觉显著性的方法通过逐像素计算图像的某个函数来评估帧区域的感知相关性;基于对象的方法则需要先进行语义分割以获取相关对象的掩码。语义视频编码已应用于多个领域,如飞机驾驶舱、体育视频、无人机视频、车辆和监控视频等。虽然有一些使用神经网络(包括 GANs)直接进行视频和图像编码的方法,但由于计算需求过高,目前在实际应用中难以获得令人满意的视觉效果。此外,完全基于学习的压缩需要新技术的标准化和推广,这增加了市场进入的门槛。为了提高压缩图像的质量,有基于预处理和后处理的混合方法,例如在标准 JPEG 压缩之前对图像进行预处理,通过学习深度网络来联合最小化熵和图像失真。
| 技术类型 | 具体方法 |
|---|---|
| 视频和图像恢复 | 图像处理技术、基于深度学习的方法(如 CNNs、GANs) |
| 视频和图像压缩 | 语义视频编码(基于视觉显著性、基于对象)、基于神经网络的编码、预处理和后处理混合方法 |
3. 生成对抗网络与标准增强 CNNs
压缩伪影去除的目标是从压缩输入图像 $I_C$ 中重建输出图像 $I_R$。其中,$I_C = A(I)$ 是压缩算法 $A$ 的输出,$I$ 是未压缩的输入图像。不同的压缩算法会产生不同的压缩伪影。许多图像和视频压缩算法(如 JPEG、JPEG2000、WebP、H.264/AVC、H.265/HEVC)在 YCrCb 颜色空间中工作,将亮度和色度信息分离,以实现更高效的压缩。
我们将图像 $I_R$、$I_C$ 和 $I$ 表示为维度为 $W × H × C$ 的实值张量,其中 $W$ 和 $H$ 分别是宽度和高度,$C$ 是颜色通道数。未压缩图像 $I$ 的压缩过程可以表示为:
[I_C = A(I, QF) \in [0, 255]^{W×H×C}]
其中,$A$ 是压缩算法,$QF$ 是质量因子。去除压缩伪影的问题可以看作是计算一个近似逆函数 $G \approx A^{-1}_{QF}$ 来从 $I_C$ 重建 $I$:
[G(I_C) = I_R \approx I]
每个生成器原则上可以使用不同质量的图像进行训练,但实践表明,单一质量的生成器性能更好,并且可以由质量预测器驱动。为了实现这一目标,我们训练一个卷积神经网络 $G(I_C; \theta_g)$,其中 $\theta_g = {W_{1:K}; b_{1:K}}$ 是网络 $K$ 层的权重和偏置参数。给定 $N$ 个训练图像,我们通过求解以下优化问题来优化自定义损失函数 $l_{AR}$:
[\hat{\theta}
g = \arg \min
{\theta_g} \frac{1}{N} \sum_{n=1}^{N} L_{AR}(I, G(I_C, \theta_g))]
4. 网络架构
去除压缩伪影属于图像转换问题,这类问题通常可以使用生成式方法解决,例如学习一个全卷积神经网络(FCN),它可以根据输入图像输出改进后的图像。使用 FCN 架构的一个优点是可以方便地进行局部非线性图像转换,并且能够处理任意大小的图像。我们可以利用这一特性,通过在较小的图像块上使用较大的批次来加速训练。
以下是三种用于图像增强的网络架构:
-
全卷积生成器
:采用深度残差生成网络,由具有非线性 LeakyReLU 激活的卷积层块组成。该生成器受相关工作的启发,使用 64 个 3×3 的卷积核,经过一系列操作(如步长为 2 的卷积层、15 个残差块、最近邻上采样层和卷积层)后,使用单卷积核和 tanh 激活生成图像。添加批量归一化有助于 GAN 的训练,提高性能。该网络可以与判别器结合,形成生成对抗框架。在对抗训练中,生成器网络 $G$ 试图生成与真实数据分布相似的图像,以欺骗判别器网络 $D$;而判别器则被训练来区分重建图像 $I_R$ 和真实图像 $I$。我们采用条件生成方法,将正例 $I|I_C$ 和负例 $I_R|I_C$ 作为生成网络的输入。
-
提高增强架构的效率
:为了降低计算需求,我们对生成器的组件进行调整。生成器的架构基于 MobileNetV2,将标准残差块替换为瓶颈深度可分离卷积块,以减少参数数量。在实验中,我们将扩展因子 $t$ 设置为 6。经过一系列卷积和上采样操作后,使用 1×1 卷积和 tanh 激活生成 RGB 图像。通过这种方式,我们设计了“Fast”和“Very Fast”两种网络,它们的参数数量明显减少,计算时间显著缩短,能够满足实时性能要求。此外,在使用 U-Net 等其他方法时,选择合适的骨干网络也很重要,例如用 MobileNetV3 替换原始的深度 ResNet 骨干网络可以降低计算成本,提高处理效率。
-
判别网络
:在进行 GAN 训练时,需要定义一个合适的判别器网络。判别器的架构通常由一系列无填充、步长为 1 的卷积层和 LeakyReLU 激活组成,每两层卷积后滤波器数量翻倍(最后一层除外),没有全连接层。通过卷积操作,特征图的尺寸逐渐减小,最后一层使用 sigmoid 激活函数。
| 模型 | 滤波器数量 | 块数量 | 参数数量 |
|---|---|---|---|
| Galteri 等人的模型 | 64 | 16 | 5.1M |
| Fast 网络 | 32 | 12 | 1.8M |
| Very Fast 网络 | 8 | 16 | 145k |
graph TD;
A[输入图像 I] --> B[压缩算法 A];
B --> C[压缩图像 I_C];
C --> D[生成器 G];
D --> E[重建图像 I_R];
E --> F[判别器 D];
G[真实图像 I] --> F;
综上所述,利用生成对抗网络提高视频质量是一个具有潜力的研究方向。通过结合计算机视觉技术和 GANs,我们可以在压缩视频的同时,有效地恢复和提高视频的质量。在实际应用中,选择合适的网络架构和训练方法对于实现高效、实时的视频质量提升至关重要。未来,随着技术的不断发展,我们有望看到更多创新的方法和应用,进一步推动视频质量提升领域的发展。
5. 混合方法
将上述两类方法结合的混合方法研究相对较少。以下介绍两种相关的混合方法:
-
基于语义编码视频的学习增强系统
:有研究提出将基于学习的图像增强方法应用于语义编码的视频,以提高视频会议的质量。该系统通过对人脸进行语义编码,能够在使用三分之一带宽的情况下,提供与高质量视频相当的观看体验。
-
结合 GANs 和学习压缩的方法
:通过结合 GANs 和学习压缩技术,能够实现最先进的生成有损压缩系统。该系统可以在使用一半带宽的情况下,获得与其他竞争方法相当的视觉质量。
| 混合方法类型 | 特点 |
|---|---|
| 基于语义编码视频的学习增强系统 | 利用语义编码和学习增强,降低带宽需求,保证视频质量 |
| 结合 GANs 和学习压缩的方法 | 结合 GANs 和学习压缩,提高压缩效率,保证视觉质量 |
6. 质量指标
不同的视觉质量指标可用于评估编码 - 解码管道的性能,主要可分为以下两类:
-
全参考指标
:需要有参考图像,通过将恢复图像与参考图像进行比较来评估图像质量。然而,优化源图像和解码图像的统计相似性可能会增加信号失真率,并且许多现有的图像质量算法(如 SSIM)在评估 GAN 生成的内容时不可靠,因为基于像素比较的指标可能无法准确反映图像的真实感知质量。
-
无参考指标
:仅使用恢复图像的特征和特性进行评估。基于“自然度”评估的指标更适合评估 GAN 生成的图像,目前有很多工作致力于获得更可靠的图像质量评估指标。在实际应用中,我们可以使用现代 LPIPS 指标进行全参考评估,使用 BRISQUE 和 NIQE 进行无参考图像质量评估,这些指标能够评估图像的自然度。
| 质量指标类型 | 评估方式 |
|---|---|
| 全参考指标 | 与参考图像比较,如 SSIM、LPIPS |
| 无参考指标 | 仅考虑恢复图像自身特征,如 BRISQUE、NIQE |
7. 总结与展望
利用生成对抗网络提高视频质量是一种有效的方法,通过不同的网络架构和技术手段,能够实现压缩视频的质量恢复和提升。以下是对整个技术体系的总结和后续展望:
-
核心要点总结
-
技术分类
:提高视频质量的技术主要分为视频和图像恢复、视频和图像压缩以及混合方法三类。
-
网络架构
:介绍了全卷积生成器、提高增强架构效率的方法和判别网络等三种网络架构,不同架构适用于不同的应用场景和性能需求。
-
质量评估
:使用全参考和无参考质量指标来评估视频质量,选择合适的指标对于准确评估视频质量至关重要。
-
未来发展方向
-
算法优化
:进一步优化网络架构和训练算法,减少计算资源的需求,提高处理速度和性能,以满足更多实时应用的需求。
-
跨领域应用
:将该技术应用于更多领域,如虚拟现实、增强现实、自动驾驶等,为这些领域的视频处理提供支持。
-
多模态融合
:结合其他模态的信息(如音频、文本),实现更全面的视频质量提升和内容理解。
graph LR;
A[视频和图像恢复] --> C[混合方法];
B[视频和图像压缩] --> C;
C --> D[提高视频质量];
D --> E[算法优化];
D --> F[跨领域应用];
D --> G[多模态融合];
总之,利用生成对抗网络提高视频质量是一个充满潜力的研究领域。随着技术的不断进步和创新,我们有理由相信,未来会有更多高效、智能的视频质量提升方法出现,为人们带来更好的视觉体验。在实际应用中,我们需要根据具体需求选择合适的方法和技术,不断探索和实践,以推动该领域的发展。
超级会员免费看
1136

被折叠的 条评论
为什么被折叠?



