18、基于FSDD数据集的深度学习案例分析

基于FSDD数据集的深度学习案例分析

1. 动态计算图与静态计算图

在深度学习中,计算图的构建方式主要分为静态计算图和动态计算图。动态计算图在运行时动态计算操作,适用于事先不知道计算内容,或者需要对给定数据点执行不同计算的情况。例如,基于可变长度时间序列输入的循环神经网络中的递归计算,以及自然语言处理(NLP)中句子长度不同、自动语音识别(ASR)中音频文件长度可变的应用场景。

与之相对的是静态计算图,在计算前就已经定义好图的结构。这两种方式各有优劣,类似于动态类型编程语言和静态类型编程语言的对比。目前,TensorFlow采用静态计算图,而PyTorch则使用动态计算图。

2. FSDD数据集介绍

FSDD(Free Spoken Digit Dataset)是一个包含1500条语音数字(0 - 9)录音的数据集,由3位说话者录制。原始音频在时域上是一系列样本,但通常将其转换到频域更有用,这里我们使用快速傅里叶变换(FFT)将每个音频文件转换为对数梅尔频谱图(logMel Spectrogram)。频谱图以二维形式展示特征,体现了某一时刻频率的强度。

2.1 软件工具和库

在本次案例中,我们使用PyTorch进行代码实现,它能与Python无缝结合,让我们更专注于深度学习概念而非其他框架的语法。同时,使用librosa库进行音频处理和数据增强。

2.2 探索性数据分析(EDA)

  • 数据增强 :原始FSDD数据集只有1500个样本,且没有专门的验证集和测试集,对于深度学习来说样本数量较少。因此,我们采用数据增强的方法,主
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值