17、提升零样本儿童自动语音识别性能及低资源约束下代码混合文本转语音合成

提升零样本儿童自动语音识别性能及低资源约束下代码混合文本转语音合成

在语音技术领域,零样本儿童自动语音识别(ASR)和代码混合文本转语音合成(TTS)是两个重要的研究方向。本文将介绍提升零样本儿童ASR性能的方法,以及在低资源约束下构建代码混合印地语 - 英语TTS系统的途径。

零样本儿童自动语音识别性能提升
1. TANDEM频谱与特征提取

TANDEM频谱T(ω, t)用于平滑声道响应,其公式为:
[T(\omega, t) = \frac{1}{2} {P(\omega, t) + P(\omega, t + T_0/2)}]
通过TANDEM STRAIGHT分析进行频谱平滑可抑制基音谐波。在零样本儿童ASR任务中,平滑基音谐波后提取的MFCC特征表现出良好的效果。

2. 特征拼接的动机

研究探索了TS - MFCC和GFCC两种前端特征在帧级拼接对零样本儿童ASR任务的影响。由于Mel和Gamma - tone滤波器组在设计和对语音帧的作用方式上存在固有差异,这两种特征能够捕捉和建模互补的声学信息。通过典型相关分析(CCA)表明,TS - MFCC和GFCC特征的相关性极低(大多数指标值≤0.15),因此它们的帧级拼接有望代表更广泛的声学属性,从而提高识别性能。

3. 实验评估
  • 数据库与实验规格
    • 训练集 :使用WSJCAM0语料库,包含92位成人说话者(39位女性)的15.5小时语音数据。为解决儿童领域语音数据不足的问题,对成人语音训练集的
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值