音频与音乐的深度学习
1. 深度学习在音频领域的发展历程
早期,时滞神经网络(TDNN)被提出,用于表示语音中音素的时变特性。后来,相关研究有力地证明了深度神经网络(DNN)的判别投影能力可用于提取音频特征,这推动了“串联特征”和“瓶颈特征”的发展,如今更是催生了端到端的语音识别系统,其输入为原始音频波形,输出为转录文本。2012 年是计算机视觉(CV)的里程碑之年,同时也是语音识别的重要一年,多篇论文展示了 DNN 架构在语音处理中的优势。同年,有研究推广了 DNN 在非语音音频处理(如音乐信息检索 MIR 和声学场景分析 DCASE)中的应用,指出手工特征和算法可被 DNN 的可训练非线性投影替代,DNN 现已成为 MIR 和 DCASE 的主流范式。
2. 用于音频处理的 DNN 架构
2.1 DNN 基础架构
- 多层感知机(MLP) :MLP 是感知机的扩展,多个感知机以全连接(FC)方式组织成层。每层的每个神经元与上一层的所有神经元相连,通过权重相乘、偏置相加和非线性激活函数(如 sigmoid、tanh 或 ReLu)进行计算。公式为 (a_{j}^{[l]} = g(\vec{a}^{[l - 1]}\vec{w} {j}^{[l]} + b {j}^{[l]})),每个 (\vec{w}_{j}^{[l]}) 定义了对上一层神经元的特定投影。
- 卷积神经网络(CNN) :FC 架构未考虑神经元间的特定组织关系,而 CNN 则不同。它使用小滤波器(通常大小为 (3,3) 或 (5,5))在输入图像(或上一层输
超级会员免费看
订阅专栏 解锁全文
707

被折叠的 条评论
为什么被折叠?



