语音数字识别与关键词检测的深度学习实现
1. 基于内存外特征训练语音数字识别网络
在处理大规模数据时,训练特征可能无法全部加载到内存中。本部分将介绍如何使用转换数据存储来训练语音数字识别网络,该网络基于内存外的听觉频谱图进行训练。
1.1 数据准备
首先,需要下载免费的语音数字数据集(FSDD),该数据集包含四个说话者说英语数字 0 到 9 的 2000 条录音。具体操作步骤如下:
downloadFolder = matlab.internal.examples.downloadSupportFile("audio","FSDD.zip");
dataFolder = tempdir;
unzip(downloadFolder,dataFolder)
dataset = fullfile(dataFolder,"FSDD");
ads = audioDatastore(dataset,IncludeSubfolders=true);
[~,filenames] = fileparts(ads.Files);
ads.Labels = categorical(extractBefore(filenames,'_'));
summary(ads.Labels);
运行上述代码后,会输出每个类别的样本数量:
| Label | Count |
| — | — |
| 0 | 200 |
| 1 | 200 |
| 2 | 200 |
| 3 | 200 |
| 4 | 200 |
|
超级会员免费看
订阅专栏 解锁全文
2833

被折叠的 条评论
为什么被折叠?



