使用MFCC和LSTM网络进行噪声中的关键词识别
一、引言
关键词识别(KWS)是语音辅助技术的重要组成部分,用户说出预定义的关键词来唤醒系统,然后再向设备发出完整的命令或查询。本文将展示如何使用深度学习网络,特别是双向长短期记忆(BiLSTM)网络和梅尔频率倒谱系数(MFCC),在嘈杂语音中识别关键词。同时,还会介绍如何通过数据增强来提高网络在嘈杂环境中的准确性。
二、使用预训练网络识别关键词
2.1 读取测试信号
在详细介绍训练过程之前,我们先下载并使用一个预训练的关键词识别网络来识别关键词。这里要识别的关键词是“YES”。
[audioIn,fs] = audioread("keywordTestSignal.wav");
sound(audioIn,fs)
2.2 下载并加载预训练网络
downloadFolder = matlab.internal.examples.downloadSupportFile("audio","KeywordSpotting.zip");
dataFolder = tempdir;
unzip(downloadFolder,dataFolder)
netFolder = fullfile(dataFolder,"KeywordSpotting");
load(fullfile(netFolder,"KWSNet.mat"));
超级会员免费看
订阅专栏 解锁全文
1578

被折叠的 条评论
为什么被折叠?



