声学模型训练----Acoustic Modeling

本文介绍了ASR系统的声学模型训练,从上下文无关到上下文相关,如单音素到三音素HMM的转变。讨论了选择声学单元的标准,解释了音素和音素的区别。此外,文章还探讨了为什么使用三音素模型,以及如何处理数据不足的问题,如共享策略和混合物分裂方法。最后,概述了CD建模的流程图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

General Framework for AM:


Building ASR system incrementally
Context-independent ➔ Context-dependent modeling 上下文无关文本➔上下文相关模型
Mono-phone ➔ Tri-phone HMM  单音素➔三音素
Single Gaussian mixture per state ➔ Multiple Gaussian mixtures per state 单高斯➔混合高斯

Data Preparation:



Acoustic Unit Selection:

Criteria
Accurate:
accurately represent the acoustic realization that appears in different contexts
Trainable: have enough data to estimate the parameters of the unit
Generalizable: any new word can be derived from a predefined unit inventory for task-independent speech recognition

标准
准确性:准确地表示出现在不同上下文中的声学实现
可训练的:有足够的数据估计参数
可概括的:可以从任务无关语音识别的预定单位清单中导出任何新单词


Units available

  • Word
  • Syllable  音节
  • Initial/Final (Chinese-specific)
  • Phoneme   音素

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值