低资源语言自动语音识别技术研究与实践
自动语音识别(ASR)在充足标注训练数据的支持下,已能接近人类的识别水平,但在低资源语言场景下,其性能仍有待提升。本文将介绍卡累利阿语和兰巴尼语两种低资源语言的ASR系统开发,包括系统架构、实验结果及未来发展方向。
卡累利阿语ASR系统
卡累利阿语的自动转录相对简单,因为其重音模式固定,元音弱化不常见。自动转录主要处理重音定位、识别双字母表示的长音素以及找出前元音前的腭化辅音。
声学建模
使用Kaldi工具包进行卡累利阿语ASR系统的训练和测试。采用基于因式分解时延神经网络(TDNN - F)的混合DNN/HMM声学模型。网络输入特征为梅尔频率倒谱系数(MFCC)和额外的100维i - 向量。
DNN的核心结构由三个TDNN - F块组成:
- 初始块:由三个TDNN - F层组成,负责处理输入向量(时间上下文为{-1, 0, 1})。
- 中间块:单个TDNN - F层(无拼接)。
- 最后块:由十个TDNN - F层组成(时间上下文为{-3, 0, 3})。
每个TDNN - F层维度为1024,瓶颈维度为128。TDNN块中的每个TDNN层后都跟随ReLU激活函数和批量归一化。使用跳跃连接,将除第一层外的每层输出与前一层输出拼接。TDNN - F层后使用维度为256的线性层。学习率在训练过程中动态调整,从0.0005降至0.00005,训练进行8个epoch。
语言建模
开发了n - 元语法和基于LSTM的语言模型,并进行了线性插值。
- 3 - 元语法语言模型(3 - g LM):使用SRI语言建模
超级会员免费看
订阅专栏 解锁全文
1237

被折叠的 条评论
为什么被折叠?



