儿童关键词检测系统中应对共振峰分散和音高敏感度影响的研究
1. 引言
关键词检测(KWS)系统旨在借助机器从连续语音中识别出所需的单词或短语。它在众多应用场景中发挥着重要作用,例如口语术语检测、音频文档索引与检索、语音拨号、电话服务监控以及智能手机中的智能个人助手等。这些应用既面向成年人,也面向儿童。
研究表明,儿童语音的内部和个体间变异性比成年人更大,且这种变异性会随着年龄增长而减小。在实际应用中,KWS系统的测试语音数据与训练数据往往存在差异,主要源于环境噪声和说话者相关的变异性。通常,KWS系统是基于成年人语音数据进行训练的,当用儿童语音测试基于成年人语音开发的声学模型时,KWS系统的性能会大幅下降。这是因为儿童和成年人的语音在声学特征上存在显著差异,儿童较短的声道长度会导致共振峰分散,低质量的声带会使语音具有更高的基频或音高谐波,而且儿童说话整体更慢,说话速率的变化范围也比成年人更广。
为了改善KWS系统的性能,研究人员提出了多种方法,包括不同的说话者自适应技术(如最大似然线性回归、最大后验自适应、说话者自适应训练、聚类自适应训练)和说话者归一化技术(如倒谱均值和方差归一化、声道长度归一化、特征空间最大似然线性回归)。然而,这些方法在不匹配测试条件下的性能仍不如匹配测试条件下的性能。由于并非所有声学不匹配源都能通过线性变换得到充分建模,因此明确补偿这些不匹配因素更为可取。
梅尔频率倒谱系数(MFCC)是自动语音识别和KWS中常用的前端声学特征,但它的特性会随音高和共振峰分散的变化而改变。特别是对于高音高信号,在提升操作期间,激励的周期性无法得到很好的平滑处理。虽然已有多种频谱扭曲和频谱平滑方法用于处理音高对MFCC的影响,但大多数方法对浊音和清音帧提供
超级会员免费看
订阅专栏 解锁全文
8293

被折叠的 条评论
为什么被折叠?



