34、利用生成对抗网络提升视频质量

study

于 2025-09-01 04:31:42 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的多维世界文章标签：生成对抗网络视频质量提升图像重建

本文链接：https://blog.youkuaiyun.com/study/article/details/151056772

深度学习的多维世界专栏收录该内容

34 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用生成对抗网络提升视频质量

1. 判别网络权重学习

判别网络（D 网络）的权重 $\psi$ 通过最小化以下损失函数来学习：
$L_d = -\log D_{\psi}(I|I_C) - \log(1 - D_{\psi}(I_R|I_C))$
判别操作在子块级别进行，这是因为压缩算法通常将图像分解为块，而伪影通常在这些块内产生。为了鼓励生成具有逼真块的图像，将 $I$ 和 $I_R$ 划分为大小为 $16×16$ 的 $P$ 个块，然后将这些块输入到判别器网络中。这种方法有助于减少蚊式噪声和振铃伪影。

2. 损失函数

在学习增强网络时，可使用直接监督和对抗方法，下面介绍几种常用的损失函数。
- 像素级均方误差损失（Pixel - Wise MSE Loss）
- 公式：$L_{MSE} = \frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}(I_{x,y} - I_{R_{x,y}})^2$
- 应用：常用于图像重建和恢复任务。它能有效恢复压缩图像的低频细节，但缺点是会抑制高频细节，最终得到的图像可能具有模糊特征。
- 结构相似性损失（SSIM Loss）
- 公式：
- 结构相似性（SSIM）的计算公式为 $SSIM(I, I_R) = \frac{(2\mu_I\mu_{I_R} + C_1)(2\sigma_{II_R} + C_2)}{(\mu_I^2 + \mu_{I_R}^2 + C_1)(\sigma_I^2 + \sigma_{I_R}^2 + C_2)}$
- 损失函数定义为 $L_{SSIM} = -\frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}SSIM(I_{x,y}, I_{R_{x,y}})$
- 应用：作为 MSE 和峰值信噪比（PSNR）图像相似度度量的替代方法，因为这两种度量与人类对图像相似度的视觉感知不一致。通过最小化该损失函数，可最大化未压缩图像和重建图像对的结构相似性得分。
- 感知损失（Perceptual Loss）
- 公式：$L_P = \frac{1}{W_fH_f}\sum_{x = 1}^{W_f}\sum_{y = 1}^{H_f}(\varphi(I) {x,y} - \varphi(I_R) {x,y})^2$
- 应用：通过可微函数 $\varphi$ 将 $I$ 和 $I_R$ 投影到特征空间，然后计算它们之间的欧几里得距离。使用感知损失训练的模型重建的图像，从像素级距离度量来看可能不准确，但从特征表示的角度来看会更相似。可以使用预训练的 VGG - 19 模型提取特征图，计算 $\varphi(I)$。
- 对抗块损失（Adversarial Patch Loss）
- 公式：
- 生成器的总损失 $L_{AR} = L_P + \lambda L_{adv}$
- 标准对抗损失 $L_{adv} = -\log(D_{\psi}(I_R|I_C))$
- 应用：当图像增强网络在对抗环境中训练时，需要在生成器损失中添加一个损失分量。该损失会惩罚那些不足以欺骗判别器网络的重建结果。
- 相对论生成对抗网络（Relativistic GAN）
- 公式：
- 判别器损失 $L_D = -E_I[\log(D(I, I_R))] - E_{I_R}[1 - \log(D(I_R, I))]$
- 生成器的对抗损失 $L_{Adv} = -E_I[1 - \log(D(I, I_R))] - E_{I_R}[\log(D(I_R, I))]$
- 应用：通过驱动判别器估计真实图像 $I$ 比生成图像 $I_R$ 更逼真的概率，以获得更好的重建输出。

3. 特定情况下的感知损失

在某些情况下，如数据不均匀时，可以设计专门的损失函数。例如，当图像的语义编码将图像分为背景和前景（如人脸）两个区域时：
- 背景的感知损失：$L_B = E_{(I,I_R)}(|VGG(I \odot M) - VGG(I_R \odot M)|)$
- 前景的感知损失：$L_F = E_{(I,I_R)}(|VGG_{Face}(I \odot \overline{M}) - VGG_{Face}(I_R \odot \overline{M})|)$
- 生成器的总损失：$L_G = L_B + L_F + \lambda L_{Adv}$
其中，$M$ 是前景二进制掩码，$\overline{M}$ 是背景掩码，$\odot$ 表示逐元素乘法。

4. 质量无关的伪影去除

图像质量通常无法提前得知，直接训练一个接受所有质量因子（QF）输入的单一生成对抗网络（GAN）是不可行的，因为会出现向高压缩率的模式崩溃。解决方案包括两个模块：
- 压缩质量预测模块
- 架构：由一系列卷积层（每个卷积层后接非线性激活函数和批量归一化）和最后两个全连接层组成。具体架构如下表所示：
| 层 | 核大小/步长 | 输出大小 |
| — | — | — |
| Conv11 | 3 × 3/1 | 128 × 128 × 64 |
| Conv12 | 3 × 3/2 | 64 × 64 × 64 |
| Conv21 | 3 × 3/1 | 64 × 64 × 128 |
| Conv22 | 3 × 3/2 | 32 × 32 × 128 |
| Conv31 | 3 × 3/1 | 32 × 32 × 256 |
| Conv32 | 3 × 3/2 | 16 × 16 × 256 |
| Conv41 | 3 × 3/1 | 16 × 16 × 512 |
| Conv42 | 3 × 3/2 | 8 × 8 × 512 |
| FC5 | - | 1024 |
| FC6 | - | 1 |
- 训练：使用 DIV2k 数据集，将图像压缩到 5 - 95 范围内的随机 QF，并提取 $128×128$ 的块。使用标准的均方误差损失（MSE）进行优化，将模型训练为回归器。
- 推理：从压缩图像中提取 8 个随机的 $128×128$ 裁剪块，输入到 QF 预测器中，平均预测结果，然后使用最接近预测 QF 的固定 QF 重建网络来重建损坏的图像。
- 固定 QF 训练的 GAN 集合 ：训练了 6 个不同的生成器，分别使用固定 QF（5、10、20、30、40、60）的训练图像。

5. NoGAN 训练方法

NoGAN 方法旨在获得更好的结果，稳定图像的训练和生成过程。其主要思想是分别预训练生成器和判别器网络，然后进行短时间的标准最终对抗训练步骤。
- 训练步骤
1. 首先使用感知损失（如特征损失）训练生成器。
2. 使用生成器生成的图像训练判别器作为二元分类器。
3. 大部分时间进行生成器和判别器的单独训练，标准 GAN 训练可能只占单独训练时间的 5 - 10%。
- 实验结果 ：使用 Div2K 数据集，将图像压缩为 JPEG 格式，质量因子设为 20（QF20）。不同损失和训练步骤的质量指标如下表所示：
| 损失 | SSIM ↑ | LPIPS ↓ | BRISQUE ↓ | NIQE ↓ |
| — | — | — | — | — |
| LPIPS (pre - GAN) | 0.6933 | 0.1243 | 85.09 | 16.76 |
| LPIPS (post - GAN) | 0.7374 | 0.1526 | 89.31 | 17.57 |
| LPIPS (post - GAN small) | 0.7301 | 0.1502 | 84.14 | 17.67 |
| MSE | 0.7293 | 0.1661 | 88.91 | 17.82 |
| SSIM | 0.7354 | 0.1830 | 86.87 | 17.57 |
| 目标 | n.a. | n.a. | 85,32 | 15,69 |

手动检查结果表明，最终的 GAN 训练有助于减少物体边界附近的高频伪影。

质量无关伪影去除流程 mermaid 图

graph LR
    A[压缩图像] --> B[提取128x128裁剪块]
    B --> C[输入QF预测器]
    C --> D[平均预测结果]
    D --> E[选择最接近QF的重建网络]
    E --> F[重建损坏图像]

NoGAN 训练流程 mermaid 图

graph LR
    A[开始] --> B[使用感知损失训练生成器]
    B --> C[使用生成器输出训练判别器]
    C --> D{是否达到单独训练时间}
    D -- 否 --> B
    D -- 是 --> E[进行标准GAN训练]
    E --> F[结束]

利用生成对抗网络提升视频质量

6. 利用发送端和接收端进行视频质量提升

通过利用语义编码视频，压缩伪影去除方法可以更好地恢复视频的视觉质量。下面分别介绍发送端的语义视频编码和接收端的视频恢复方法。
- 语义视频编码
- 编码思路 ：将更多的比特分配给对观看者有语义兴趣的区域（前景），以牺牲背景为代价。语义编码旨在传输对观看者最重要的高级语义内容，与基于显著性的编码目标不同，后者旨在传输最可能被观看者眼睛观察到的内容，而不考虑其重要性。
- 具体操作 ：
1. 为每一帧构建语义掩码，将像素标记为前景或背景。在视频会议应用中，使用 BiSeNet 图像分割方法，在 CelebAMask - HQ 上训练，将人脸和颈部像素标记为前景，其余为背景。
2. 使用修改后的 h.264 编码器对最终视频进行编码，该编码器将给定比特率的预定百分比 $P$ 分配给输入掩码。
- 视频恢复
- 传统恢复方法的问题 ：大多数基于深度学习的恢复方法试图最小化参考原始帧 $I$ 和压缩输入 $I_C$ 生成的输出 $I_R$ 之间的像素级欧几里得距离的平方，但这种训练策略会导致恢复的图像模糊且缺乏重要细节。此外，h.264 编码器通常在压缩管道末端包含强循环去块滤波器，使得基于 MSE 的神经网络恢复图像的效果更差。
- 生成对抗网络（GAN）恢复方法 ：GAN 框架包括生成器和判别器两个实体。生成器的目标是根据一些噪声输入生成模型分布，判别器的作用是区分模型分布和目标分布。在恢复任务中，需要对 GAN 的训练过程进行条件约束，将真实样本 $I|I_C$ 和假样本 $I_R|I_C$ 输入到判别器中，其中 $·|·$ 表示输入的通道级连接。

7. 实验结果分析

使用 BRISQUE 和 LPIPS 指标评估语义编码与 GAN 结合的性能，结果如下表所示，两个指标值越低越好。
| 情况 | BRISQUE | LPIPS |
| — | — | — |
| 仅使用显著性编码 | - | - |
| 显著性编码 + GAN | - | - |

从结果可以看出，仅使用显著性编码就已经在质量上有所提升，而应用训练用于重建显著性编码视频的 GAN 可以进一步提高图像质量。随着分配给显著部分的比特率百分比增加，无论是否使用 GAN 去除伪影，性能都会提高。应用 GAN 分别在两个指标上带来了 30% 和 55% 的改进。

语义视频编码与恢复流程 mermaid 图

graph LR
    A[原始视频帧] --> B[构建语义掩码]
    B --> C[标记前景和背景]
    C --> D[使用修改后的h.264编码器编码]
    D --> E[压缩视频]
    E --> F[输入GAN进行恢复]
    F --> G[恢复后的视频]

总结

在当今社会，媒体流和存储是信息广泛传播和远程交互的基础。本文讨论了一系列基于深度学习的工具，用于提升压缩媒体的质量。通过使用不同的损失函数、质量无关的伪影去除方法、NoGAN 训练方法以及结合发送端和接收端的策略，可以有效地提高压缩视频的视觉质量。未来，可以进一步探索如何优化这些方法，以适应更多不同场景下的视频质量提升需求。

以下是对上述方法的总结表格：
| 方法 | 主要思想 | 关键公式 | 应用场景 |
| — | — | — | — |
| 判别网络权重学习 | 在子块级别进行判别，减少伪影 | $L_d = -\log D_{\psi}(I|I_C) - \log(1 - D_{\psi}(I_R|I_C))$ | 通用图像重建 |
| 像素级均方误差损失 | 恢复低频细节，但抑制高频细节 | $L_{MSE} = \frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}(I_{x,y} - I_{R_{x,y}})^2$ | 图像重建和恢复 |
| 结构相似性损失 | 考虑人类视觉感知的图像相似度 | $L_{SSIM} = -\frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}SSIM(I_{x,y}, I_{R_{x,y}})$ | 替代 MSE 和 PSNR |
| 感知损失 | 从特征表示角度衡量图像相似度 | $L_P = \frac{1}{W_fH_f}\sum_{x = 1}^{W_f}\sum_{y = 1}^{H_f}(\varphi(I) {x,y} - \varphi(I_R) {x,y})^2$ | 图像重建 |
| 对抗块损失 | 惩罚不足以欺骗判别器的重建结果 | $L_{AR} = L_P + \lambda L_{adv}$，$L_{adv} = -\log(D_{\psi}(I_R|I_C))$ | 对抗环境下的图像增强 |
| 相对论生成对抗网络 | 估计真实图像比生成图像更逼真的概率 | $L_D = -E_I[\log(D(I, I_R))] - E_{I_R}[1 - \log(D(I_R, I))]$，$L_{Adv} = -E_I[1 - \log(D(I, I_R))] - E_{I_R}[\log(D(I_R, I))]$ | 图像超分辨率 |
| 特定感知损失 | 针对数据不均匀情况设计 | $L_G = L_B + L_F + \lambda L_{Adv}$ | 图像语义编码有不同区域时 |
| 质量无关的伪影去除 | 结合质量预测和固定 QF 的 GAN 集合 | - | 未知图像质量的场景 |
| NoGAN 训练方法 | 分别预训练生成器和判别器，再进行短时间对抗训练 | - | 稳定图像训练和生成 |
| 语义视频编码与恢复 | 发送端分配比特，接收端用 GAN 恢复 | - | 视频会议等视频传输场景 |