29、FastFoley与ComNet：声音合成与对话策略的创新方案-优快云博客

本文链接：https://blog.youkuaiyun.com/read5/article/details/151709445

FastFoley与ComNet：声音合成与对话策略的创新方案

1. FastFoley：基于视觉语义的音效合成

1.1 模型结构

FastFoley旨在合成与视频内容相关的音效。在模型结构中，PostNet包含5个一维卷积层和批量归一化层，其输入通过残差连接添加到输出中。为了减少每个时间步的真实音效特征与预测音效特征之间的差异，采用了Smooth L1 Loss进行计算，实验表明它比L1 Loss和L2 Loss效果更好。

对于从预测频谱图生成声音，采用了具有汉宁窗的逆短时傅里叶变换（ISTFT）方法，因其计算复杂度低于基于神经网络的声码器。在从频谱图进行相位重建时，执行ISTFT时采用了迭代的Griffin - Lim算法。

1.2 数据集构建

为了完成音效合成任务，构建了视听音效数据集（AVFD），它源自AudioSet、UCF101和VEGAS。具体构建步骤如下：
1. AudioSet筛选 ：AudioSet包含2,084,320个人工标注的10秒音频片段，但许多视频和音频关联松散。手动筛选出一些合适的类别，如JackHammer、Sawing等。根据AudioSet本体的JSON文件获取每个类别的ID，进而得到该类所有视频的YouTube URL，使用YouTube - dl下载所有视频，并手动选择可用视频。
2. UCF101和VEGAS筛选 ：注意到UCF101和VEGAS中的部分视频也满足要求（噪音少、无 vocals、无背景音乐），同样筛选出可用视频。
3. 整合数据集 ：将从AudioSet、UCF101和VEGAS筛选出的视频整合在一起，构建AVFD。该数据集包含来自12个不同类别的5,565个视频，每个类别平均有464个视频，每个视频时长在10秒以内，并且是开源的。

1.3 实验与结果

1.3.1 实现细节

训练过程分为两个阶段：
1. 特征提取与计算 ：
- 使用Python的音频处理包librosa计算音频特征，为每个音效类别计算平均频谱图。
- 视频插值使用FFmpeg视频编辑工具中的m - 插值滤波器。
- 分别将当前、前一帧和下一帧作为ResNet - 50的三通道输入，得到包含运动信息的2048维向量；同样使用RGB帧得到包含纹理和颜色信息的2048维向量。将这两个向量连接得到4096维的最终视觉嵌入。
2. 声学模型训练 ：
- 编码器和解码器均由一个前馈Transformer块组成，每个Transformer块的隐藏维度为512，多头注意力的头数设置为2。
- 类别嵌入是一个查找表，将其添加到编码器输出以支持多类别训练。
- 数据集按80%训练、10%验证、10%测试划分。使用小批量梯度下降和Adam优化器，小批量大小为16，学习率为0.001。前一千步采用预热策略，使用梯度裁剪避免梯度爆炸。模型在NVIDIA RTX 2080 Ti GPU上训练3000个epoch。

1.3.2 实验评估

主观评估 ：选择16对由提出的模型和基线合成音频的视频，打乱后进行ABX测试，由33名参与者根据四个标准（更真实的样本、质量更好的样本、最同步的样本、总体上更喜欢的样本）进行选择。结果如下表所示，FastFoley模型在所有指标上的平均偏好率高于基线和无偏好率之和，表明该系统在所有标准下都获得了更好的偏好率。
| 标准 | 基线 | NP（无偏好） | FastFoley |
| — | — | — | — |
| 真实度 | 11.9% | 18.2% | 69.9% |
| 质量 | 8.3% | 22.3% | 69.3% |
| 同步性 | 17.4% | 21.2% | 61.4% |
| 偏好 | 14.2% | 9.5% | 76.3% |
客观评估 ：借鉴评估语音质量的指标，如MS - STFT - Loss、SSIM、STOI、PESQ对生成结果进行客观评估。结果如下表所示，FastFoley在各项指标上表现更好，且速度更快。
| 指标 | 基线 | FastFoley |
| — | — | — |
| MS - STFT - Loss | 0.2961 | 0.1944 |
| SSIM | 0.5373 | 0.6742 |
| STOI | 0.1704 | 0.1185 |
| PESQ | 0.3383 | 0.2978 |
| 速度（iter/s） | 0.45 | 3.32 |
可视化 ：通过音频波形和频谱图的可视化，进一步验证了FastFoley的优势。音频波形可视化显示，与真实波形相比，基线合成的波形可能存在声音冗余和缺失，且时间不匹配提前；而FastFoley虽然也可能存在声音冗余，但时间不匹配表现为滞后，更符合人类先看到画面后听到声音的感知。频谱图可视化显示，FastFoley生成的频谱图与真实频谱图更相似，而基线生成的频谱图包含较多噪声。

1.4 流程总结

下面是FastFoley的整体流程mermaid流程图：

graph LR
    A[数据集构建] --> B[特征提取与计算]
    B --> C[声学模型训练]
    C --> D[实验评估]
    D --> E[可视化分析]

2. ComNet：基于图神经网络的结构化分层对话策略

2.1 背景与问题

复合对话任务可能在单个对话中涉及多个领域，传统的分层深度强化学习（HDRL）方法在处理此类任务时，顶层和底层策略都由多层感知器（MLPs）表示，以环境中所有观察的串联作为输入来预测动作，存在采样效率低和可迁移性差的问题。

2.2 解决方案：ComNet

为了解决上述问题，提出了一种新颖的ComNet来建模分层代理的结构。ComNet利用图神经网络（GNNs）的灵活性，其具体优势在于能够更好地处理复合任务中的复杂结构和关系。

2.3 实验与结果

在PyDial基准的复合任务上测试ComNet的性能。实验表明，ComNet优于传统的HDRL系统，性能接近上限。它不仅实现了样本效率，对噪声更具鲁棒性，还能保持对其他复合任务的可迁移性。

2.4 对比总结

下面是传统HDRL和ComNet的对比表格：
| 方法 | 采样效率 | 可迁移性 | 抗噪声能力 |
| — | — | — | — |
| 传统HDRL | 低 | 差 | 弱 |
| ComNet | 高 | 好 | 强 |

2. ComNet：基于图神经网络的结构化分层对话策略（续）

2.5 工作原理

ComNet利用图神经网络（GNNs）对分层代理的结构进行建模。在复合对话任务中，不同的子任务和信息之间存在着复杂的关系，GNNs能够很好地捕捉这些关系。具体来说，ComNet将对话任务中的各个元素（如子任务、信息等）表示为图中的节点，元素之间的关系表示为边。通过在图上进行消息传递和特征更新，ComNet可以学习到这些元素之间的相互作用，从而更有效地进行决策。

2.6 实验流程

在PyDial基准的复合任务上进行实验时，ComNet的实验流程如下：
1. 数据准备 ：收集和整理复合对话任务的数据，包括对话历史、用户需求等信息。
2. 模型构建 ：构建ComNet模型，设置图神经网络的相关参数，如隐藏层维度、消息传递次数等。
3. 训练模型 ：使用准备好的数据对ComNet模型进行训练，采用合适的优化算法和损失函数，如深度强化学习中的策略梯度算法。
4. 评估模型 ：在测试集上对训练好的模型进行评估，使用多种指标来衡量模型的性能，如对话成功率、信息准确率等。

下面是ComNet实验流程的mermaid流程图：

graph LR
    A[数据准备] --> B[模型构建]
    B --> C[训练模型]
    C --> D[评估模型]

2.7 性能优势分析

ComNet在复合对话任务中表现出了显著的性能优势，具体分析如下：
- 采样效率高 ：由于ComNet能够更好地捕捉任务结构和关系，它可以更有针对性地进行决策，减少不必要的探索，从而提高采样效率。相比之下，传统HDRL方法由于缺乏对任务结构的有效建模，往往需要进行大量的随机探索，导致采样效率低下。
- 可迁移性好 ：ComNet的图神经网络结构具有较强的灵活性和通用性，能够适应不同的复合对话任务。当面对新的任务时，ComNet可以快速调整模型参数，学习新的任务结构和关系，从而实现较好的迁移效果。而传统HDRL方法的多层感知器结构对任务的依赖性较强，难以在不同任务之间进行有效的迁移。
- 抗噪声能力强 ：在实际的对话环境中，可能会存在各种噪声和不确定性，如用户输入的错误、环境干扰等。ComNet的图神经网络结构能够通过消息传递和特征更新，对这些噪声进行有效的处理和过滤，从而提高模型的抗噪声能力。传统HDRL方法由于其简单的多层感知器结构，对噪声较为敏感，容易受到噪声的影响而导致性能下降。

3. 总结与展望

3.1 总结

FastFoley在音效合成领域取得了显著的成果，通过构建专门的数据集和采用有效的模型结构及训练方法，在主观和客观评估中都表现出了优于基线的性能。ComNet则为复合对话任务提供了一种创新的解决方案，利用图神经网络的优势，解决了传统分层深度强化学习方法在采样效率、可迁移性和抗噪声能力方面的问题。

3.2 展望

未来，在FastFoley方面，可以尝试引入更有效的前端视频特征工程，如预训练或提示视觉 - 语言模型，以进一步提高音效合成的质量和效果。同时，可以设置更多合理的客观实验来评估生成音效的质量。在ComNet方面，可以进一步探索图神经网络在不同类型复合对话任务中的应用，优化模型结构和训练方法，提高模型的性能和适应性。此外，还可以考虑将FastFoley和ComNet结合起来，应用于更复杂的多媒体交互场景，为用户提供更加丰富和真实的体验。

3.3 综合对比