12、低资源语言自动语音识别技术研究与实践

低资源语言自动语音识别技术研究与实践

自动语音识别(ASR)在充足标注训练数据的支持下,已能接近人类的识别水平,但在低资源语言场景下,其性能仍有待提升。本文将介绍卡累利阿语和兰巴尼语两种低资源语言的ASR系统开发,包括系统架构、实验结果及未来发展方向。

卡累利阿语ASR系统

卡累利阿语的自动转录相对简单,因为其重音模式固定,元音弱化不常见。自动转录主要处理重音定位、识别双字母表示的长音素以及找出前元音前的腭化辅音。

声学建模

使用Kaldi工具包进行卡累利阿语ASR系统的训练和测试。采用基于因式分解时延神经网络(TDNN - F)的混合DNN/HMM声学模型。网络输入特征为梅尔频率倒谱系数(MFCC)和额外的100维i - 向量。
DNN的核心结构由三个TDNN - F块组成:
- 初始块:由三个TDNN - F层组成,负责处理输入向量(时间上下文为{-1, 0, 1})。
- 中间块:单个TDNN - F层(无拼接)。
- 最后块:由十个TDNN - F层组成(时间上下文为{-3, 0, 3})。

每个TDNN - F层维度为1024,瓶颈维度为128。TDNN块中的每个TDNN层后都跟随ReLU激活函数和批量归一化。使用跳跃连接,将除第一层外的每层输出与前一层输出拼接。TDNN - F层后使用维度为256的线性层。学习率在训练过程中动态调整,从0.0005降至0.00005,训练进行8个epoch。

语言建模

开发了n - 元语法和基于LSTM的语言模型,并进行了线性插值。
- 3 - 元语法语言模型(3 - g LM):使用SRI语言建模

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值