提升零样本儿童自动语音识别性能及低资源约束下代码混合文本转语音合成
在语音技术领域,零样本儿童自动语音识别(ASR)和代码混合文本转语音合成(TTS)是两个重要的研究方向。本文将介绍提升零样本儿童ASR性能的方法,以及在低资源约束下构建代码混合印地语 - 英语TTS系统的途径。
零样本儿童自动语音识别性能提升
1. TANDEM频谱与特征提取
TANDEM频谱T(ω, t)用于平滑声道响应,其公式为:
[T(\omega, t) = \frac{1}{2} {P(\omega, t) + P(\omega, t + T_0/2)}]
通过TANDEM STRAIGHT分析进行频谱平滑可抑制基音谐波。在零样本儿童ASR任务中,平滑基音谐波后提取的MFCC特征表现出良好的效果。
2. 特征拼接的动机
研究探索了TS - MFCC和GFCC两种前端特征在帧级拼接对零样本儿童ASR任务的影响。由于Mel和Gamma - tone滤波器组在设计和对语音帧的作用方式上存在固有差异,这两种特征能够捕捉和建模互补的声学信息。通过典型相关分析(CCA)表明,TS - MFCC和GFCC特征的相关性极低(大多数指标值≤0.15),因此它们的帧级拼接有望代表更广泛的声学属性,从而提高识别性能。
3. 实验评估
- 数据库与实验规格
- 训练集 :使用WSJCAM0语料库,包含92位成人说话者(39位女性)的15.5小时语音数据。为解决儿童领域语音数据不足的问题,对成人语音训练集的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



