面向儿童假肢手控制的稳健MCU关键词唤醒模型
1. 引言
关键词唤醒(KWS)在语音交互领域至关重要,特别是在儿童假肢手控制方面,需要一个准确且稳健的模型。TinyML的出现使得深度学习能够应用于微控制器(MCU),让深度KWS模型更容易嵌入到MCU边缘设备中。
在数据方面,Multilingual Spoken Words Corpus(MSWC)包含超过24800个西班牙语单词的自然环境录音,可用于模拟常见噪声水平。而UrbanSound8K数据集则提供了背景噪声数据,包含8732个标注切片,分为十个不同类别。
此前的一些研究虽然在KWS任务上取得了进展,但存在不足。例如,2022年Osman等人、Saifullah等人仅使用关键词录音进行模型训练,未考虑包含非关键词的音频流;Miah和Wang虽在训练中包含了非关键词,但未包含含背景噪声的非语音音频信号,这可能导致模型在实际应用中出现误判。
本文提出了一个西班牙语语音命令识别模型,主要贡献在于获得了一个准确率达91.49%的稳健深度KWS模型,适用于嵌入MCU。该模型将用于儿童机器人假肢手的语音控制模块,通过使用MSWC和UrbanSound8K数据集进行训练,在实际环境中比现有模型更具鲁棒性。
2. 深度KWS模型评估
深度KWS模型的一般架构包括特征提取和深度学习模型两部分,音频信号需先经过特征提取模块转换为特征向量,再由深度学习声学模型处理以获得预测标签序列,供决策逻辑判断关键词是否存在。
2.1 语音特征提取
Mel尺度相关特征,如Mel频率倒谱系数(MFCC)和对数Mel频谱图,是基于深度学习的KWS模型中最
儿童假肢手稳健MCU语音控制模型
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



