FastFoley与ComNet:声音合成与对话策略的创新方案
1. FastFoley:基于视觉语义的音效合成
1.1 模型结构
FastFoley旨在合成与视频内容相关的音效。在模型结构中,PostNet包含5个一维卷积层和批量归一化层,其输入通过残差连接添加到输出中。为了减少每个时间步的真实音效特征与预测音效特征之间的差异,采用了Smooth L1 Loss进行计算,实验表明它比L1 Loss和L2 Loss效果更好。
对于从预测频谱图生成声音,采用了具有汉宁窗的逆短时傅里叶变换(ISTFT)方法,因其计算复杂度低于基于神经网络的声码器。在从频谱图进行相位重建时,执行ISTFT时采用了迭代的Griffin - Lim算法。
1.2 数据集构建
为了完成音效合成任务,构建了视听音效数据集(AVFD),它源自AudioSet、UCF101和VEGAS。具体构建步骤如下:
1.
AudioSet筛选
:AudioSet包含2,084,320个人工标注的10秒音频片段,但许多视频和音频关联松散。手动筛选出一些合适的类别,如JackHammer、Sawing等。根据AudioSet本体的JSON文件获取每个类别的ID,进而得到该类所有视频的YouTube URL,使用YouTube - dl下载所有视频,并手动选择可用视频。
2.
UCF101和VEGAS筛选
:注意到UCF101和VEGAS中的部分视频也满足要求(噪音少、无 vocals、无背景音乐),同样筛选出可用视频。
3.
整合数据集
:将从AudioSet、UCF101和VEGAS筛选出的视频整合在一起,构建AVFD。该数据集包含来自12个不同类别的5,565个视频,每个类别平均有464个视频,每个视频时长在10秒以内,并且是开源的。
1.3 实验与结果
1.3.1 实现细节
训练过程分为两个阶段:
1.
特征提取与计算
:
- 使用Python的音频处理包librosa计算音频特征,为每个音效类别计算平均频谱图。
- 视频插值使用FFmpeg视频编辑工具中的m - 插值滤波器。
- 分别将当前、前一帧和下一帧作为ResNet - 50的三通道输入,得到包含运动信息的2048维向量;同样使用RGB帧得到包含纹理和颜色信息的2048维向量。将这两个向量连接得到4096维的最终视觉嵌入。
2.
声学模型训练
:
- 编码器和解码器均由一个前馈Transformer块组成,每个Transformer块的隐藏维度为512,多头注意力的头数设置为2。
- 类别嵌入是一个查找表,将其添加到编码器输出以支持多类别训练。
- 数据集按80%训练、10%验证、10%测试划分。使用小批量梯度下降和Adam优化器,小批量大小为16,学习率为0.001。前一千步采用预热策略,使用梯度裁剪避免梯度爆炸。模型在NVIDIA RTX 2080 Ti GPU上训练3000个epoch。
1.3.2 实验评估
-
主观评估 :选择16对由提出的模型和基线合成音频的视频,打乱后进行ABX测试,由33名参与者根据四个标准(更真实的样本、质量更好的样本、最同步的样本、总体上更喜欢的样本)进行选择。结果如下表所示,FastFoley模型在所有指标上的平均偏好率高于基线和无偏好率之和,表明该系统在所有标准下都获得了更好的偏好率。
| 标准 | 基线 | NP(无偏好) | FastFoley |
| — | — | — | — |
| 真实度 | 11.9% | 18.2% | 69.9% |
| 质量 | 8.3% | 22.3% | 69.3% |
| 同步性 | 17.4% | 21.2% | 61.4% |
| 偏好 | 14.2% | 9.5% | 76.3% | -
客观评估 :借鉴评估语音质量的指标,如MS - STFT - Loss、SSIM、STOI、PESQ对生成结果进行客观评估。结果如下表所示,FastFoley在各项指标上表现更好,且速度更快。
| 指标 | 基线 | FastFoley |
| — | — | — |
| MS - STFT - Loss | 0.2961 | 0.1944 |
| SSIM | 0.5373 | 0.6742 |
| STOI | 0.1704 | 0.1185 |
| PESQ | 0.3383 | 0.2978 |
| 速度(iter/s) | 0.45 | 3.32 | -
可视化 :通过音频波形和频谱图的可视化,进一步验证了FastFoley的优势。音频波形可视化显示,与真实波形相比,基线合成的波形可能存在声音冗余和缺失,且时间不匹配提前;而FastFoley虽然也可能存在声音冗余,但时间不匹配表现为滞后,更符合人类先看到画面后听到声音的感知。频谱图可视化显示,FastFoley生成的频谱图与真实频谱图更相似,而基线生成的频谱图包含较多噪声。
1.4 流程总结
下面是FastFoley的整体流程mermaid流程图:
graph LR
A[数据集构建] --> B[特征提取与计算]
B --> C[声学模型训练]
C --> D[实验评估]
D --> E[可视化分析]
2. ComNet:基于图神经网络的结构化分层对话策略
2.1 背景与问题
复合对话任务可能在单个对话中涉及多个领域,传统的分层深度强化学习(HDRL)方法在处理此类任务时,顶层和底层策略都由多层感知器(MLPs)表示,以环境中所有观察的串联作为输入来预测动作,存在采样效率低和可迁移性差的问题。
2.2 解决方案:ComNet
为了解决上述问题,提出了一种新颖的ComNet来建模分层代理的结构。ComNet利用图神经网络(GNNs)的灵活性,其具体优势在于能够更好地处理复合任务中的复杂结构和关系。
2.3 实验与结果
在PyDial基准的复合任务上测试ComNet的性能。实验表明,ComNet优于传统的HDRL系统,性能接近上限。它不仅实现了样本效率,对噪声更具鲁棒性,还能保持对其他复合任务的可迁移性。
2.4 对比总结
下面是传统HDRL和ComNet的对比表格:
| 方法 | 采样效率 | 可迁移性 | 抗噪声能力 |
| — | — | — | — |
| 传统HDRL | 低 | 差 | 弱 |
| ComNet | 高 | 好 | 强 |
2. ComNet:基于图神经网络的结构化分层对话策略(续)
2.5 工作原理
ComNet利用图神经网络(GNNs)对分层代理的结构进行建模。在复合对话任务中,不同的子任务和信息之间存在着复杂的关系,GNNs能够很好地捕捉这些关系。具体来说,ComNet将对话任务中的各个元素(如子任务、信息等)表示为图中的节点,元素之间的关系表示为边。通过在图上进行消息传递和特征更新,ComNet可以学习到这些元素之间的相互作用,从而更有效地进行决策。
2.6 实验流程
在PyDial基准的复合任务上进行实验时,ComNet的实验流程如下:
1.
数据准备
:收集和整理复合对话任务的数据,包括对话历史、用户需求等信息。
2.
模型构建
:构建ComNet模型,设置图神经网络的相关参数,如隐藏层维度、消息传递次数等。
3.
训练模型
:使用准备好的数据对ComNet模型进行训练,采用合适的优化算法和损失函数,如深度强化学习中的策略梯度算法。
4.
评估模型
:在测试集上对训练好的模型进行评估,使用多种指标来衡量模型的性能,如对话成功率、信息准确率等。
下面是ComNet实验流程的mermaid流程图:
graph LR
A[数据准备] --> B[模型构建]
B --> C[训练模型]
C --> D[评估模型]
2.7 性能优势分析
ComNet在复合对话任务中表现出了显著的性能优势,具体分析如下:
-
采样效率高
:由于ComNet能够更好地捕捉任务结构和关系,它可以更有针对性地进行决策,减少不必要的探索,从而提高采样效率。相比之下,传统HDRL方法由于缺乏对任务结构的有效建模,往往需要进行大量的随机探索,导致采样效率低下。
-
可迁移性好
:ComNet的图神经网络结构具有较强的灵活性和通用性,能够适应不同的复合对话任务。当面对新的任务时,ComNet可以快速调整模型参数,学习新的任务结构和关系,从而实现较好的迁移效果。而传统HDRL方法的多层感知器结构对任务的依赖性较强,难以在不同任务之间进行有效的迁移。
-
抗噪声能力强
:在实际的对话环境中,可能会存在各种噪声和不确定性,如用户输入的错误、环境干扰等。ComNet的图神经网络结构能够通过消息传递和特征更新,对这些噪声进行有效的处理和过滤,从而提高模型的抗噪声能力。传统HDRL方法由于其简单的多层感知器结构,对噪声较为敏感,容易受到噪声的影响而导致性能下降。
3. 总结与展望
3.1 总结
FastFoley在音效合成领域取得了显著的成果,通过构建专门的数据集和采用有效的模型结构及训练方法,在主观和客观评估中都表现出了优于基线的性能。ComNet则为复合对话任务提供了一种创新的解决方案,利用图神经网络的优势,解决了传统分层深度强化学习方法在采样效率、可迁移性和抗噪声能力方面的问题。
3.2 展望
未来,在FastFoley方面,可以尝试引入更有效的前端视频特征工程,如预训练或提示视觉 - 语言模型,以进一步提高音效合成的质量和效果。同时,可以设置更多合理的客观实验来评估生成音效的质量。在ComNet方面,可以进一步探索图神经网络在不同类型复合对话任务中的应用,优化模型结构和训练方法,提高模型的性能和适应性。此外,还可以考虑将FastFoley和ComNet结合起来,应用于更复杂的多媒体交互场景,为用户提供更加丰富和真实的体验。
3.3 综合对比
下面是FastFoley和ComNet的综合对比表格:
| 方法 | 应用领域 | 主要优势 | 未来改进方向 |
| — | — | — | — |
| FastFoley | 音效合成 | 主观和客观性能优,数据集丰富 | 引入前端视频特征工程,优化评估指标 |
| ComNet | 复合对话任务 | 采样效率高,可迁移性好,抗噪声强 | 探索更多应用场景,优化模型结构 |
超级会员免费看

被折叠的 条评论
为什么被折叠?



