34、利用生成对抗网络提升视频质量

利用生成对抗网络提升视频质量

1. 判别网络权重学习

判别网络(D 网络)的权重 $\psi$ 通过最小化以下损失函数来学习:
$L_d = -\log D_{\psi}(I|I_C) - \log(1 - D_{\psi}(I_R|I_C))$
判别操作在子块级别进行,这是因为压缩算法通常将图像分解为块,而伪影通常在这些块内产生。为了鼓励生成具有逼真块的图像,将 $I$ 和 $I_R$ 划分为大小为 $16×16$ 的 $P$ 个块,然后将这些块输入到判别器网络中。这种方法有助于减少蚊式噪声和振铃伪影。

2. 损失函数

在学习增强网络时,可使用直接监督和对抗方法,下面介绍几种常用的损失函数。
- 像素级均方误差损失(Pixel - Wise MSE Loss)
- 公式:$L_{MSE} = \frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}(I_{x,y} - I_{R_{x,y}})^2$
- 应用:常用于图像重建和恢复任务。它能有效恢复压缩图像的低频细节,但缺点是会抑制高频细节,最终得到的图像可能具有模糊特征。
- 结构相似性损失(SSIM Loss)
- 公式:
- 结构相似性(SSIM)的计算公式为 $SSIM(I, I_R) = \frac{(2\mu_I\mu_{I_R} + C_1)(2\sigma_{II_R} + C_2)}{(\mu_I^2 + \mu_{I_R}^2 + C_1)(\sigma_I^2 + \sigma_{I_R}^2 + C_2)}$
- 损失函数定义为 $L_{SSIM} = -\frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}SSIM(I_{x,y}, I_{R_{x,y}})$
- 应用:作为 MSE 和峰值信噪比(PSNR)图像相似度度量的替代方法,因为这两种度量与人类对图像相似度的视觉感知不一致。通过最小化该损失函数,可最大化未压缩图像和重建图像对的结构相似性得分。
- 感知损失(Perceptual Loss)
- 公式:$L_P = \frac{1}{W_fH_f}\sum_{x = 1}^{W_f}\sum_{y = 1}^{H_f}(\varphi(I) {x,y} - \varphi(I_R) {x,y})^2$
- 应用:通过可微函数 $\varphi$ 将 $I$ 和 $I_R$ 投影到特征空间,然后计算它们之间的欧几里得距离。使用感知损失训练的模型重建的图像,从像素级距离度量来看可能不准确,但从特征表示的角度来看会更相似。可以使用预训练的 VGG - 19 模型提取特征图,计算 $\varphi(I)$。
- 对抗块损失(Adversarial Patch Loss)
- 公式:
- 生成器的总损失 $L_{AR} = L_P + \lambda L_{adv}$
- 标准对抗损失 $L_{adv} = -\log(D_{\psi}(I_R|I_C))$
- 应用:当图像增强网络在对抗环境中训练时,需要在生成器损失中添加一个损失分量。该损失会惩罚那些不足以欺骗判别器网络的重建结果。
- 相对论生成对抗网络(Relativistic GAN)
- 公式:
- 判别器损失 $L_D = -E_I[\log(D(I, I_R))] - E_{I_R}[1 - \log(D(I_R, I))]$
- 生成器的对抗损失 $L_{Adv} = -E_I[1 - \log(D(I, I_R))] - E_{I_R}[\log(D(I_R, I))]$
- 应用:通过驱动判别器估计真实图像 $I$ 比生成图像 $I_R$ 更逼真的概率,以获得更好的重建输出。

3. 特定情况下的感知损失

在某些情况下,如数据不均匀时,可以设计专门的损失函数。例如,当图像的语义编码将图像分为背景和前景(如人脸)两个区域时:
- 背景的感知损失:$L_B = E_{(I,I_R)}(|VGG(I \odot M) - VGG(I_R \odot M)|)$
- 前景的感知损失:$L_F = E_{(I,I_R)}(|VGG_{Face}(I \odot \overline{M}) - VGG_{Face}(I_R \odot \overline{M})|)$
- 生成器的总损失:$L_G = L_B + L_F + \lambda L_{Adv}$
其中,$M$ 是前景二进制掩码,$\overline{M}$ 是背景掩码,$\odot$ 表示逐元素乘法。

4. 质量无关的伪影去除

图像质量通常无法提前得知,直接训练一个接受所有质量因子(QF)输入的单一生成对抗网络(GAN)是不可行的,因为会出现向高压缩率的模式崩溃。解决方案包括两个模块:
- 压缩质量预测模块
- 架构:由一系列卷积层(每个卷积层后接非线性激活函数和批量归一化)和最后两个全连接层组成。具体架构如下表所示:
| 层 | 核大小/步长 | 输出大小 |
| — | — | — |
| Conv11 | 3 × 3/1 | 128 × 128 × 64 |
| Conv12 | 3 × 3/2 | 64 × 64 × 64 |
| Conv21 | 3 × 3/1 | 64 × 64 × 128 |
| Conv22 | 3 × 3/2 | 32 × 32 × 128 |
| Conv31 | 3 × 3/1 | 32 × 32 × 256 |
| Conv32 | 3 × 3/2 | 16 × 16 × 256 |
| Conv41 | 3 × 3/1 | 16 × 16 × 512 |
| Conv42 | 3 × 3/2 | 8 × 8 × 512 |
| FC5 | - | 1024 |
| FC6 | - | 1 |
- 训练:使用 DIV2k 数据集,将图像压缩到 5 - 95 范围内的随机 QF,并提取 $128×128$ 的块。使用标准的均方误差损失(MSE)进行优化,将模型训练为回归器。
- 推理:从压缩图像中提取 8 个随机的 $128×128$ 裁剪块,输入到 QF 预测器中,平均预测结果,然后使用最接近预测 QF 的固定 QF 重建网络来重建损坏的图像。
- 固定 QF 训练的 GAN 集合 :训练了 6 个不同的生成器,分别使用固定 QF(5、10、20、30、40、60)的训练图像。

5. NoGAN 训练方法

NoGAN 方法旨在获得更好的结果,稳定图像的训练和生成过程。其主要思想是分别预训练生成器和判别器网络,然后进行短时间的标准最终对抗训练步骤。
- 训练步骤
1. 首先使用感知损失(如特征损失)训练生成器。
2. 使用生成器生成的图像训练判别器作为二元分类器。
3. 大部分时间进行生成器和判别器的单独训练,标准 GAN 训练可能只占单独训练时间的 5 - 10%。
- 实验结果 :使用 Div2K 数据集,将图像压缩为 JPEG 格式,质量因子设为 20(QF20)。不同损失和训练步骤的质量指标如下表所示:
| 损失 | SSIM ↑ | LPIPS ↓ | BRISQUE ↓ | NIQE ↓ |
| — | — | — | — | — |
| LPIPS (pre - GAN) | 0.6933 | 0.1243 | 85.09 | 16.76 |
| LPIPS (post - GAN) | 0.7374 | 0.1526 | 89.31 | 17.57 |
| LPIPS (post - GAN small) | 0.7301 | 0.1502 | 84.14 | 17.67 |
| MSE | 0.7293 | 0.1661 | 88.91 | 17.82 |
| SSIM | 0.7354 | 0.1830 | 86.87 | 17.57 |
| 目标 | n.a. | n.a. | 85,32 | 15,69 |

手动检查结果表明,最终的 GAN 训练有助于减少物体边界附近的高频伪影。

质量无关伪影去除流程 mermaid 图
graph LR
    A[压缩图像] --> B[提取128x128裁剪块]
    B --> C[输入QF预测器]
    C --> D[平均预测结果]
    D --> E[选择最接近QF的重建网络]
    E --> F[重建损坏图像]
NoGAN 训练流程 mermaid 图
graph LR
    A[开始] --> B[使用感知损失训练生成器]
    B --> C[使用生成器输出训练判别器]
    C --> D{是否达到单独训练时间}
    D -- 否 --> B
    D -- 是 --> E[进行标准GAN训练]
    E --> F[结束]

利用生成对抗网络提升视频质量

6. 利用发送端和接收端进行视频质量提升

通过利用语义编码视频,压缩伪影去除方法可以更好地恢复视频的视觉质量。下面分别介绍发送端的语义视频编码和接收端的视频恢复方法。
- 语义视频编码
- 编码思路 :将更多的比特分配给对观看者有语义兴趣的区域(前景),以牺牲背景为代价。语义编码旨在传输对观看者最重要的高级语义内容,与基于显著性的编码目标不同,后者旨在传输最可能被观看者眼睛观察到的内容,而不考虑其重要性。
- 具体操作
1. 为每一帧构建语义掩码,将像素标记为前景或背景。在视频会议应用中,使用 BiSeNet 图像分割方法,在 CelebAMask - HQ 上训练,将人脸和颈部像素标记为前景,其余为背景。
2. 使用修改后的 h.264 编码器对最终视频进行编码,该编码器将给定比特率的预定百分比 $P$ 分配给输入掩码。
- 视频恢复
- 传统恢复方法的问题 :大多数基于深度学习的恢复方法试图最小化参考原始帧 $I$ 和压缩输入 $I_C$ 生成的输出 $I_R$ 之间的像素级欧几里得距离的平方,但这种训练策略会导致恢复的图像模糊且缺乏重要细节。此外,h.264 编码器通常在压缩管道末端包含强循环去块滤波器,使得基于 MSE 的神经网络恢复图像的效果更差。
- 生成对抗网络(GAN)恢复方法 :GAN 框架包括生成器和判别器两个实体。生成器的目标是根据一些噪声输入生成模型分布,判别器的作用是区分模型分布和目标分布。在恢复任务中,需要对 GAN 的训练过程进行条件约束,将真实样本 $I|I_C$ 和假样本 $I_R|I_C$ 输入到判别器中,其中 $·|·$ 表示输入的通道级连接。

7. 实验结果分析

使用 BRISQUE 和 LPIPS 指标评估语义编码与 GAN 结合的性能,结果如下表所示,两个指标值越低越好。
| 情况 | BRISQUE | LPIPS |
| — | — | — |
| 仅使用显著性编码 | - | - |
| 显著性编码 + GAN | - | - |

从结果可以看出,仅使用显著性编码就已经在质量上有所提升,而应用训练用于重建显著性编码视频的 GAN 可以进一步提高图像质量。随着分配给显著部分的比特率百分比增加,无论是否使用 GAN 去除伪影,性能都会提高。应用 GAN 分别在两个指标上带来了 30% 和 55% 的改进。

语义视频编码与恢复流程 mermaid 图
graph LR
    A[原始视频帧] --> B[构建语义掩码]
    B --> C[标记前景和背景]
    C --> D[使用修改后的h.264编码器编码]
    D --> E[压缩视频]
    E --> F[输入GAN进行恢复]
    F --> G[恢复后的视频]
总结

在当今社会,媒体流和存储是信息广泛传播和远程交互的基础。本文讨论了一系列基于深度学习的工具,用于提升压缩媒体的质量。通过使用不同的损失函数、质量无关的伪影去除方法、NoGAN 训练方法以及结合发送端和接收端的策略,可以有效地提高压缩视频的视觉质量。未来,可以进一步探索如何优化这些方法,以适应更多不同场景下的视频质量提升需求。

以下是对上述方法的总结表格:
| 方法 | 主要思想 | 关键公式 | 应用场景 |
| — | — | — | — |
| 判别网络权重学习 | 在子块级别进行判别,减少伪影 | $L_d = -\log D_{\psi}(I|I_C) - \log(1 - D_{\psi}(I_R|I_C))$ | 通用图像重建 |
| 像素级均方误差损失 | 恢复低频细节,但抑制高频细节 | $L_{MSE} = \frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}(I_{x,y} - I_{R_{x,y}})^2$ | 图像重建和恢复 |
| 结构相似性损失 | 考虑人类视觉感知的图像相似度 | $L_{SSIM} = -\frac{1}{WH}\sum_{x = 1}^{W}\sum_{y = 1}^{H}SSIM(I_{x,y}, I_{R_{x,y}})$ | 替代 MSE 和 PSNR |
| 感知损失 | 从特征表示角度衡量图像相似度 | $L_P = \frac{1}{W_fH_f}\sum_{x = 1}^{W_f}\sum_{y = 1}^{H_f}(\varphi(I) {x,y} - \varphi(I_R) {x,y})^2$ | 图像重建 |
| 对抗块损失 | 惩罚不足以欺骗判别器的重建结果 | $L_{AR} = L_P + \lambda L_{adv}$,$L_{adv} = -\log(D_{\psi}(I_R|I_C))$ | 对抗环境下的图像增强 |
| 相对论生成对抗网络 | 估计真实图像比生成图像更逼真的概率 | $L_D = -E_I[\log(D(I, I_R))] - E_{I_R}[1 - \log(D(I_R, I))]$,$L_{Adv} = -E_I[1 - \log(D(I, I_R))] - E_{I_R}[\log(D(I_R, I))]$ | 图像超分辨率 |
| 特定感知损失 | 针对数据不均匀情况设计 | $L_G = L_B + L_F + \lambda L_{Adv}$ | 图像语义编码有不同区域时 |
| 质量无关的伪影去除 | 结合质量预测和固定 QF 的 GAN 集合 | - | 未知图像质量的场景 |
| NoGAN 训练方法 | 分别预训练生成器和判别器,再进行短时间对抗训练 | - | 稳定图像训练和生成 |
| 语义视频编码与恢复 | 发送端分配比特,接收端用 GAN 恢复 | - | 视频会议等视频传输场景 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值