52、线性预测阶数对儿童语音识别共振峰位置修改的影响

线性预测阶数优化儿童语音识别

线性预测阶数对儿童语音识别共振峰位置修改的影响

1. 引言

儿童语音识别具有众多潜在应用,如学习第二语言、教育、娱乐和游戏等。尽管机器学习方法的发展使自动语音识别(ASR)有了显著进步,但儿童语音识别仍面临挑战。与成人语音相比,现有的公开软件和工具在处理儿童语音时效果不佳。神经网络模型需要大量语音数据才能达到良好性能,然而公开可用的儿童语音数据却非常有限。

为解决这一问题,有人提出了不匹配的ASR方法,即使用成人语音进行训练,儿童语音进行测试。但这种方法会导致训练和测试语音数据之间出现声学和语言上的不匹配。因此,构建一个能适应各种不匹配条件的儿童语音ASR系统十分必要。

在过去二十年里,基于语音识别的应用不断发展,但这些应用会受到年龄、口音、性别、语速、音高和共振峰频率等多种因素的影响。为克服说话者之间的差异,ASR模型通常使用来自不同年龄段说话者的大量语音数据进行训练,同时还会采用特征空间最大似然线性回归(fMLLR)和声道长度归一化(VTLN)等技术来适应这些变化。

儿童和成人说话者之间的主要声学不匹配包括语速、音高和共振峰频率。为克服这些不匹配,已经开展了许多研究。例如,研究发现结合韵律特征和梅尔频率倒谱系数(MFCCs)可以降低字错误率(WER);对音高和语速进行修改也有助于克服成人和儿童语音之间的不匹配;随机特征数据增强技术可以提高儿童语音识别系统的性能;共振峰频率会随年龄变化,儿童语音的共振峰频率通常高于成人语音,对共振峰频率进行修改可以改善系统在不匹配条件下的性能。

本文提出了一种利用线性预测阶数来修改共振峰频率的方法,旨在克服成人和儿童语音之间的差异,提高ASR系统的性能。该研究针对窄带(8 kHz)和宽带(16 kHz)语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值