基于FSDD数据集的深度学习案例分析
1. 动态计算图与静态计算图
在深度学习中,计算图的构建方式主要分为静态计算图和动态计算图。动态计算图在运行时动态计算操作,适用于事先不知道计算内容,或者需要对给定数据点执行不同计算的情况。例如,基于可变长度时间序列输入的循环神经网络中的递归计算,以及自然语言处理(NLP)中句子长度不同、自动语音识别(ASR)中音频文件长度可变的应用场景。
与之相对的是静态计算图,在计算前就已经定义好图的结构。这两种方式各有优劣,类似于动态类型编程语言和静态类型编程语言的对比。目前,TensorFlow采用静态计算图,而PyTorch则使用动态计算图。
2. FSDD数据集介绍
FSDD(Free Spoken Digit Dataset)是一个包含1500条语音数字(0 - 9)录音的数据集,由3位说话者录制。原始音频在时域上是一系列样本,但通常将其转换到频域更有用,这里我们使用快速傅里叶变换(FFT)将每个音频文件转换为对数梅尔频谱图(logMel Spectrogram)。频谱图以二维形式展示特征,体现了某一时刻频率的强度。
2.1 软件工具和库
在本次案例中,我们使用PyTorch进行代码实现,它能与Python无缝结合,让我们更专注于深度学习概念而非其他框架的语法。同时,使用librosa库进行音频处理和数据增强。
2.2 探索性数据分析(EDA)
- 数据增强 :原始FSDD数据集只有1500个样本,且没有专门的验证集和测试集,对于深度学习来说样本数量较少。因此,我们采用数据增强的方法,主
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



