28、深度学习在音频和音乐领域的应用

深度学习在音频和音乐领域的应用

1. 音频相似度与翻唱检测

1.1 音频相似度

早期通过计算各自高斯混合模型(GMM)之间的Kullback - Leibler散度来衡量音频相似度,这种方法计算成本高,且无法重现真实的排名列表。近期有人提出将深度神经网络(DNN)度量学习应用于此问题。具体步骤如下:
1. 从真实排名列表出发,根据相对位置定义一组排名三元组 $T_r$ = {锚点,正例,负例}。
2. 使用三元组损失训练一个类似于VGG - Net的卷积神经网络(CNN),输入为512个常量Q变换(CQT)帧的块。
3. 网络学习将每个音轨投影到一个128维的“音频相似度嵌入”空间,音轨间的相似度通过欧几里得距离获得。

1.2 翻唱检测

“翻唱”指对同一音乐作品的不同录制诠释。由于用户生成内容大量增加,需要可扩展的版权监控系统,翻唱检测问题受到广泛关注。相关方法如下:
1. 联合使用CQT、估计的主音高和多音高表示来表示音乐音轨内容。
2. 将这些表示输入深度CNN网络。
3. 使用三元组损失范式,以锚点音轨、正例(锚点的翻唱)和负例(非锚点的翻唱)进行训练。
4. 网络输出作为音轨嵌入,训练后,嵌入间的距离可指示音轨是否为翻唱。

2. 环境声音描述

2.1 研究现状

声学场景和事件的检测与分类(DCASE)研究领域受到工业界高度关注。深度学习框架推动了环境声音识别的进展,相关概念和架构已应用于城市场景分析、生物声学声音识别等具体问题。

2.2 应对策略

由于自然音景中声音的多样性,出现了一些特定方法:
1. 特征学习方法 :如稀疏表示、矩阵分解和字典学习。例如,使用非负矩阵分解(NMF)或平移不变概率潜在分量分析(SIPLCA)将音频场景记录分解为基础分量组合,与DNN结合用于声学场景分类时,可采用更简单的神经网络架构和较少的训练数据。
2. 网络架构
- Resnets :每层由残差模块和跳过连接组成,可解释为较小网络的集合,在声学源分类中表现高效。
- 浅Inception模型 :在声学源分类中也很有效。
3. 自编码器架构 :在预测性维护(异常声音检测)应用中,基于自编码器的架构很受欢迎,因其可无监督学习,适合异常声音观测数据少的情况。
4. 少样本和迁移学习方法
- 匹配网络 :在学习的潜在空间上使用注意力机制预测未标记点的类别,可解释为嵌入空间中的加权最近邻分类器。
- 原型网络 :核心思想是每个类别存在一个由单个原型表示描述的潜在空间,通过神经网络学习输入到嵌入空间的非线性映射,将类别的原型映射到嵌入空间中支持集的均值,对嵌入查询点进行分类时,只需找到最近的类别原型。

以下是这些方法的简单总结表格:
|方法类型|具体方法|特点|
| ---- | ---- | ---- |
|特征学习|稀疏表示、矩阵分解、字典学习|适应声音多样性,结合DNN可简化架构和减少训练数据|
|网络架构|Resnets、浅Inception模型|在声学源分类中高效|
|自编码器架构|基于自编码器的架构|可无监督学习,适合异常声音检测|
|少样本和迁移学习|匹配网络、原型网络|适合少样本和迁移学习场景|

下面是一个简单的mermaid流程图,展示环境声音描述的处理流程:

graph LR
    A[音频数据] --> B[特征提取]
    B --> C{选择方法}
    C -->|特征学习| D[特征分解与组合]
    C -->|网络架构| E[使用Resnets或Inception模型]
    C -->|自编码器架构| F[自编码器学习]
    C -->|少样本和迁移学习| G[匹配或原型网络分类]
    D --> H[声学场景分类]
    E --> H
    F --> H
    G --> H

3. 内容处理:源分离

3.1 盲音频源分离(BASS)概述

BASS旨在从给定混合信号中恢复一个或多个源信号,与语音增强/去噪密切相关。早期BASS算法依赖计算听觉场景分析(CASA)原则或矩阵分解方法,如独立成分分析(ICA)和NMF。近年来,DNN方法显著提高了分离质量,多数DNN方法将BASS视为监督任务。

3.2 具体网络架构

3.2.1 U - Net

U - Net常采用去噪自编码器(DAE)形式。早期模型使用循环神经网络(RNN)及其变体,后来发现非循环架构(如CNN)成本更低。卷积DAE在音频重建方面存在局限性,U - Net通过在编码器和解码器之间添加跳过连接,允许重建精细细节。具体操作如下:
1. 网络训练输出时频掩码 $M_j(t, f)$。
2. 将掩码应用于混合信号的幅度短时傅里叶变换(STFT)$|X(t, f)|$,得到分离源的幅度STFT $|S_j(t, f)| = |X(t, f)| ⊙ M_j(t, f)$。
3. 使用初始混合信号频谱图的相位 $\varphi_X(t, f)$ 对 $|S_j(t, f)|$ 进行反变换,重建信号 $s_j(t)$,但使用原始信号相位会限制系统性能。

3.2.2 Complex - U - Net

为解决U - Net使用原始信号相位的局限性,Complex - U - Net在语音增强中使用复频谱图作为输入,修改网络、掩码和损失以处理复数值,复掩码不仅修改幅度,还改变相位,以估计分离源的复频谱图。

3.2.3 Wave - U - Net

Wave - U - Net绕过STFT,直接处理音频波形。编码器通过一维卷积/抽取级联逐步降低信号的时间维度至瓶颈表示 $z$,解码器通过上采样/一维卷积级联将 $z$ 解码为分离信号,不使用掩码滤波器。

3.2.4 端到端架构

受WaveNet启发,使用堆叠的扩张卷积和跳过连接,但以非因果方式预测中心帧的分离源集合。

3.2.5 SEGAN

SEGAN用于语音增强,使用WaveNet块表示波形,采用DAE架构作为生成对抗网络(GAN)中的生成器,训练生成看起来像真实信号的增强信号。

3.2.6 AE作为NMF

将自编码器(AE)表示为非线性NMF,提出非负AE,由非线性编码层和非线性解码层堆叠组成,潜在表示可视为激活矩阵,基于此提出多种源分离算法。

3.2.7 TasNet和ConvTasNet

直接处理波形,编码器提供激活,解码器重建信号。解码器将混合波形重建为基础信号的非负加权和,权重由简单编码器输出,通过对权重应用掩码进行分离,TasNet使用深度长短期记忆网络(LSTM),ConvTasNet使用一维卷积层。

3.2.8 深度聚类

采用度量学习方法,训练DNN将频谱图的每个时间和频率点非线性投影到一个空间,使属于同一源的点投影到相邻位置,不同源的点投影到远处,然后使用简单的K - 均值聚类算法进行分离。

以下是源分离方法的总结表格:
|方法名称|输入|特点|
| ---- | ---- | ---- |
|U - Net|频谱图表示|添加跳过连接,使用原始信号相位重建有局限|
|Complex - U - Net|复频谱图|处理复数值,修改相位|
|Wave - U - Net|音频波形|绕过STFT,不使用掩码滤波器|
|端到端架构|音频波形|非因果预测分离源|
|SEGAN|音频波形|作为GAN生成器,生成增强信号|
|AE作为NMF|音频数据|表示为非线性NMF,提出非负AE|
|TasNet和ConvTasNet|音频波形|编码器提供激活,解码器重建信号,对权重应用掩码|
|深度聚类|频谱图|度量学习,K - 均值聚类分离|

下面是源分离处理流程的mermaid流程图:

graph LR
    A[混合信号] --> B{选择方法}
    B -->|U - Net| C[频谱图处理]
    B -->|Complex - U - Net| D[复频谱图处理]
    B -->|Wave - U - Net| E[波形处理]
    B -->|端到端架构| E
    B -->|SEGAN| E
    B -->|AE作为NMF| F[非线性NMF处理]
    B -->|TasNet和ConvTasNet| E
    B -->|深度聚类| G[频谱图投影与聚类]
    C --> H[分离源重建]
    D --> H
    E --> H
    F --> H
    G --> H

4. 内容生成

4.1 生成模型概述

在统计分类和机器学习中,生成方法可生成新的数据样本,常见的包括不同形式的自编码器(如变分自编码器VAEs)、自回归模型和生成对抗网络(GANs),这些模型在图像生成领域表现出色,近年来也在音频内容生成中展现出潜力。

4.2 具体模型介绍

4.2.1 自回归和基于注意力的模型
  • WaveNet :是流行的音频波形合成神经自回归生成模型,能进行高质量语音和音乐合成,但模型复杂,基于样本级自回归原理,常用于其他框架,如编码器 - 解码器架构(Nsynth、VAEs)。
  • 端到端生成模型 :最初用于文本转语音(TTS),目标是直接从字符合成信号。例如,Tacotron使用带注意力机制的序列到序列架构生成线性尺度频谱图,再用Griffin和Lim算法估计音频信号;Tacotron2结合Tacotron和改进的WaveNet合成器,生成梅尔尺度频谱图。
4.2.2 变分自编码器(VAEs)
  • 语音合成 :作为WaveNet自编码器的扩展,量化的潜在空间依赖于说话人身份。
  • 音乐合成 :提出通用音乐翻译网络,使用通用编码器使所有音乐领域的嵌入位于同一空间,每个领域有独立的重建解码器,并利用辅助条件网络。还可将VAEs的正则化原理扩展,使潜在空间具有与感知空间(如音乐音色)相同的拓扑结构,实现连续音色演变的声音合成。此外,向量量化VAE(VQ - VAE)学习离散潜在表示或码本,能实现更清晰的重建,提取与音频语义信息(如音素、音乐音色)高度相关的高级可解释音频特征,应用于语音转换和声音转换。Jukebox方法基于多尺度VQ - VAEs和简化的自回归变压器,可合成带 vocals 的完整歌曲。
4.2.3 对抗音频合成
  • GANs :最初成功应用于语音合成,后扩展到音乐合成。例如,WaveGan基于二维深度卷积GAN(DCGAN)架构进行原始波形音频的无监督合成,调整了层间的感受野和上采样因子。GANsynth评估了多种音频表示,包括STFT表示(对数幅度、包裹和未包裹相位)和瞬时频率(IF)。还有研究比较了原始音频波形和多种时频表示(如复频谱图、CQT或MFCC)在对抗音频合成任务中的表现。
  • GAN扩展 :提出了Style - GAN、Cycle - GAN、渐进式增长GAN等扩展或改编概念。例如,针对鼓声音合成提出了特定的渐进式增长GAN架构,使用描述音色的连续感知特征进行条件生成。
4.2.4 音乐风格转换
  • 直接音频信号转换 :使用卷积神经网络(如[GDOP18])或通用音乐翻译网络直接对输入音频信号进行风格转换。
  • 符号音乐处理 :多数研究针对符号音乐(如MIDI),可处理一个或多个音乐属性,如旋律、乐器、音色、伴奏或整体编排风格。例如,Groove2Groove模型是一种用于符号音乐的一次性风格转移编码器 - 解码器神经网络方法,使用合成并行数据进行监督训练,输入为完整伴奏,输出完全重新生成,不包含原始伴奏轨道。

以下是内容生成模型的总结表格:
|模型类型|具体模型|特点|
| ---- | ---- | ---- |
|自回归和注意力模型|WaveNet、Tacotron、Tacotron2|高质量合成,端到端生成|
|变分自编码器|VAEs、VQ - VAE、Jukebox|量化潜在空间,多尺度合成|
|对抗音频合成|GANs、WaveGan、GANsynth|无监督合成,评估多种音频表示|
|音乐风格转换|Groove2Groove等|处理符号音乐,一次性风格转移|

下面是内容生成流程的mermaid流程图:

graph LR
    A[输入数据] --> B{选择模型}
    B -->|自回归和注意力模型| C[自回归合成或端到端生成]
    B -->|变分自编码器| D[潜在空间学习与合成]
    B -->|对抗音频合成| E[无监督合成]
    B -->|音乐风格转换| F[风格转移]
    C --> G[生成音频]
    D --> G
    E --> G
    F --> G

5. 半监督学习和自监督学习

5.1 监督学习的挑战

监督学习需要大量带标签的数据来训练预测模型的参数,但对于音乐或环境声音等音频内容,目前缺乏这样的大规模标注数据集。

5.2 应对技术

5.2.1 半监督学习

半监督学习(Semi - SL)结合少量带标签数据和大量无标签数据进行训练。常见的形式是教师 - 学生范式,即使用在干净带标签数据上训练的教师模型为大量无标签数据标注,然后用这些标注数据训练学生模型。例如,SoundNet在环境声音识别任务中使用教师 - 学生技术,将计算机视觉(CV)网络的知识转移到音频网络。具体操作如下:
1. 考虑大量音频 - 视频剪辑,每个剪辑包含视频轨道和音频轨道。
2. 将CV网络应用于视频轨道,为相应的音频轨道标注。
3. 使用标注的音频轨道训练音频网络,通过最小化音频和图像网络输出概率之间的Kullback - Leibler散度进行知识转移,使用两百万个无标签视频进行训练。

5.2.2 自监督学习

虽然文档未详细介绍自监督学习,但它也是解决标注数据不足问题的一种方法,通过利用数据自身的结构和模式进行学习。

以下是半监督学习和自监督学习的总结表格:
|学习类型|特点|示例|
| ---- | ---- | ---- |
|半监督学习|结合少量带标签和大量无标签数据,教师 - 学生范式|SoundNet|
|自监督学习|利用数据自身结构和模式学习|未详细介绍|

下面是半监督学习流程的mermaid流程图:

graph LR
    A[带标签数据] --> B[训练教师模型]
    C[无标签数据] --> D[教师模型标注]
    B --> D
    D --> E[训练学生模型]

综上所述,深度学习在音频和音乐领域的应用广泛且不断发展,涵盖了音频相似度、翻唱检测、环境声音描述、源分离、内容生成以及半监督和自监督学习等多个方面。不同的任务和场景需要选择合适的模型和方法,以实现最佳的性能和效果。随着技术的不断进步,相信深度学习将在音频和音乐领域发挥更大的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值