29、FastFoley与ComNet:声音合成与对话策略的创新方案

FastFoley与ComNet:声音合成与对话策略的创新方案

1. FastFoley:基于视觉语义的音效合成

1.1 模型结构

FastFoley旨在合成与视频内容相关的音效。在模型结构中,PostNet包含5个一维卷积层和批量归一化层,其输入通过残差连接添加到输出中。为了减少每个时间步的真实音效特征与预测音效特征之间的差异,采用了Smooth L1 Loss进行计算,实验表明它比L1 Loss和L2 Loss效果更好。

对于从预测频谱图生成声音,采用了具有汉宁窗的逆短时傅里叶变换(ISTFT)方法,因其计算复杂度低于基于神经网络的声码器。在从频谱图进行相位重建时,执行ISTFT时采用了迭代的Griffin - Lim算法。

1.2 数据集构建

为了完成音效合成任务,构建了视听音效数据集(AVFD),它源自AudioSet、UCF101和VEGAS。具体构建步骤如下:
1. AudioSet筛选 :AudioSet包含2,084,320个人工标注的10秒音频片段,但许多视频和音频关联松散。手动筛选出一些合适的类别,如JackHammer、Sawing等。根据AudioSet本体的JSON文件获取每个类别的ID,进而得到该类所有视频的YouTube URL,使用YouTube - dl下载所有视频,并手动选择可用视频。
2. UCF101和VEGAS筛选 :注意到UCF101和VEGAS中的部分视频也满足要求(噪音少、无 vocals、无背景音乐),同样筛选出可用视频。
3. 整合数据集 :将从AudioSet、UCF101和VEGAS筛选出的视频整合在一起,构建AVFD。该数据集包含来自12个不同类别的5,565个视频,每个类别平均有464个视频,每个视频时长在10秒以内,并且是开源的。

1.3 实验与结果

1.3.1 实现细节

训练过程分为两个阶段:
1. 特征提取与计算
- 使用Python的音频处理包librosa计算音频特征,为每个音效类别计算平均频谱图。
- 视频插值使用FFmpeg视频编辑工具中的m - 插值滤波器。
- 分别将当前、前一帧和下一帧作为ResNet - 50的三通道输入,得到包含运动信息的2048维向量;同样使用RGB帧得到包含纹理和颜色信息的2048维向量。将这两个向量连接得到4096维的最终视觉嵌入。
2. 声学模型训练
- 编码器和解码器均由一个前馈Transformer块组成,每个Transformer块的隐藏维度为512,多头注意力的头数设置为2。
- 类别嵌入是一个查找表,将其添加到编码器输出以支持多类别训练。
- 数据集按80%训练、10%验证、10%测试划分。使用小批量梯度下降和Adam优化器,小批量大小为16,学习率为0.001。前一千步采用预热策略,使用梯度裁剪避免梯度爆炸。模型在NVIDIA RTX 2080 Ti GPU上训练3000个epoch。

1.3.2 实验评估
  • 主观评估 :选择16对由提出的模型和基线合成音频的视频,打乱后进行ABX测试,由33名参与者根据四个标准(更真实的样本、质量更好的样本、最同步的样本、总体上更喜欢的样本)进行选择。结果如下表所示,FastFoley模型在所有指标上的平均偏好率高于基线和无偏好率之和,表明该系统在所有标准下都获得了更好的偏好率。
    | 标准 | 基线 | NP(无偏好) | FastFoley |
    | — | — | — | — |
    | 真实度 | 11.9% | 18.2% | 69.9% |
    | 质量 | 8.3% | 22.3% | 69.3% |
    | 同步性 | 17.4% | 21.2% | 61.4% |
    | 偏好 | 14.2% | 9.5% | 76.3% |

  • 客观评估 :借鉴评估语音质量的指标,如MS - STFT - Loss、SSIM、STOI、PESQ对生成结果进行客观评估。结果如下表所示,FastFoley在各项指标上表现更好,且速度更快。
    | 指标 | 基线 | FastFoley |
    | — | — | — |
    | MS - STFT - Loss | 0.2961 | 0.1944 |
    | SSIM | 0.5373 | 0.6742 |
    | STOI | 0.1704 | 0.1185 |
    | PESQ | 0.3383 | 0.2978 |
    | 速度(iter/s) | 0.45 | 3.32 |

  • 可视化 :通过音频波形和频谱图的可视化,进一步验证了FastFoley的优势。音频波形可视化显示,与真实波形相比,基线合成的波形可能存在声音冗余和缺失,且时间不匹配提前;而FastFoley虽然也可能存在声音冗余,但时间不匹配表现为滞后,更符合人类先看到画面后听到声音的感知。频谱图可视化显示,FastFoley生成的频谱图与真实频谱图更相似,而基线生成的频谱图包含较多噪声。

1.4 流程总结

下面是FastFoley的整体流程mermaid流程图:

graph LR
    A[数据集构建] --> B[特征提取与计算]
    B --> C[声学模型训练]
    C --> D[实验评估]
    D --> E[可视化分析]

2. ComNet:基于图神经网络的结构化分层对话策略

2.1 背景与问题

复合对话任务可能在单个对话中涉及多个领域,传统的分层深度强化学习(HDRL)方法在处理此类任务时,顶层和底层策略都由多层感知器(MLPs)表示,以环境中所有观察的串联作为输入来预测动作,存在采样效率低和可迁移性差的问题。

2.2 解决方案:ComNet

为了解决上述问题,提出了一种新颖的ComNet来建模分层代理的结构。ComNet利用图神经网络(GNNs)的灵活性,其具体优势在于能够更好地处理复合任务中的复杂结构和关系。

2.3 实验与结果

在PyDial基准的复合任务上测试ComNet的性能。实验表明,ComNet优于传统的HDRL系统,性能接近上限。它不仅实现了样本效率,对噪声更具鲁棒性,还能保持对其他复合任务的可迁移性。

2.4 对比总结

下面是传统HDRL和ComNet的对比表格:
| 方法 | 采样效率 | 可迁移性 | 抗噪声能力 |
| — | — | — | — |
| 传统HDRL | 低 | 差 | 弱 |
| ComNet | 高 | 好 | 强 |

2. ComNet:基于图神经网络的结构化分层对话策略(续)

2.5 工作原理

ComNet利用图神经网络(GNNs)对分层代理的结构进行建模。在复合对话任务中,不同的子任务和信息之间存在着复杂的关系,GNNs能够很好地捕捉这些关系。具体来说,ComNet将对话任务中的各个元素(如子任务、信息等)表示为图中的节点,元素之间的关系表示为边。通过在图上进行消息传递和特征更新,ComNet可以学习到这些元素之间的相互作用,从而更有效地进行决策。

2.6 实验流程

在PyDial基准的复合任务上进行实验时,ComNet的实验流程如下:
1. 数据准备 :收集和整理复合对话任务的数据,包括对话历史、用户需求等信息。
2. 模型构建 :构建ComNet模型,设置图神经网络的相关参数,如隐藏层维度、消息传递次数等。
3. 训练模型 :使用准备好的数据对ComNet模型进行训练,采用合适的优化算法和损失函数,如深度强化学习中的策略梯度算法。
4. 评估模型 :在测试集上对训练好的模型进行评估,使用多种指标来衡量模型的性能,如对话成功率、信息准确率等。

下面是ComNet实验流程的mermaid流程图:

graph LR
    A[数据准备] --> B[模型构建]
    B --> C[训练模型]
    C --> D[评估模型]

2.7 性能优势分析

ComNet在复合对话任务中表现出了显著的性能优势,具体分析如下:
- 采样效率高 :由于ComNet能够更好地捕捉任务结构和关系,它可以更有针对性地进行决策,减少不必要的探索,从而提高采样效率。相比之下,传统HDRL方法由于缺乏对任务结构的有效建模,往往需要进行大量的随机探索,导致采样效率低下。
- 可迁移性好 :ComNet的图神经网络结构具有较强的灵活性和通用性,能够适应不同的复合对话任务。当面对新的任务时,ComNet可以快速调整模型参数,学习新的任务结构和关系,从而实现较好的迁移效果。而传统HDRL方法的多层感知器结构对任务的依赖性较强,难以在不同任务之间进行有效的迁移。
- 抗噪声能力强 :在实际的对话环境中,可能会存在各种噪声和不确定性,如用户输入的错误、环境干扰等。ComNet的图神经网络结构能够通过消息传递和特征更新,对这些噪声进行有效的处理和过滤,从而提高模型的抗噪声能力。传统HDRL方法由于其简单的多层感知器结构,对噪声较为敏感,容易受到噪声的影响而导致性能下降。

3. 总结与展望

3.1 总结

FastFoley在音效合成领域取得了显著的成果,通过构建专门的数据集和采用有效的模型结构及训练方法,在主观和客观评估中都表现出了优于基线的性能。ComNet则为复合对话任务提供了一种创新的解决方案,利用图神经网络的优势,解决了传统分层深度强化学习方法在采样效率、可迁移性和抗噪声能力方面的问题。

3.2 展望

未来,在FastFoley方面,可以尝试引入更有效的前端视频特征工程,如预训练或提示视觉 - 语言模型,以进一步提高音效合成的质量和效果。同时,可以设置更多合理的客观实验来评估生成音效的质量。在ComNet方面,可以进一步探索图神经网络在不同类型复合对话任务中的应用,优化模型结构和训练方法,提高模型的性能和适应性。此外,还可以考虑将FastFoley和ComNet结合起来,应用于更复杂的多媒体交互场景,为用户提供更加丰富和真实的体验。

3.3 综合对比

下面是FastFoley和ComNet的综合对比表格:
| 方法 | 应用领域 | 主要优势 | 未来改进方向 |
| — | — | — | — |
| FastFoley | 音效合成 | 主观和客观性能优,数据集丰富 | 引入前端视频特征工程,优化评估指标 |
| ComNet | 复合对话任务 | 采样效率高,可迁移性好,抗噪声强 | 探索更多应用场景,优化模型结构 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值