26、音频与音乐的深度学习

音频与音乐的深度学习

1. 深度学习在音频领域的发展历程

早期,时滞神经网络(TDNN)被提出,用于表示语音中音素的时变特性。后来,相关研究有力地证明了深度神经网络(DNN)的判别投影能力可用于提取音频特征,这推动了“串联特征”和“瓶颈特征”的发展,如今更是催生了端到端的语音识别系统,其输入为原始音频波形,输出为转录文本。2012 年是计算机视觉(CV)的里程碑之年,同时也是语音识别的重要一年,多篇论文展示了 DNN 架构在语音处理中的优势。同年,有研究推广了 DNN 在非语音音频处理(如音乐信息检索 MIR 和声学场景分析 DCASE)中的应用,指出手工特征和算法可被 DNN 的可训练非线性投影替代,DNN 现已成为 MIR 和 DCASE 的主流范式。

2. 用于音频处理的 DNN 架构
2.1 DNN 基础架构
  • 多层感知机(MLP) :MLP 是感知机的扩展,多个感知机以全连接(FC)方式组织成层。每层的每个神经元与上一层的所有神经元相连,通过权重相乘、偏置相加和非线性激活函数(如 sigmoid、tanh 或 ReLu)进行计算。公式为 (a_{j}^{[l]} = g(\vec{a}^{[l - 1]}\vec{w} {j}^{[l]} + b {j}^{[l]})),每个 (\vec{w}_{j}^{[l]}) 定义了对上一层神经元的特定投影。
  • 卷积神经网络(CNN) :FC 架构未考虑神经元间的特定组织关系,而 CNN 则不同。它使用小滤波器(通常大小为 (3,3) 或 (5,5))在输入图像(或上一层输
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值