12、低资源语言自动语音识别技术研究与实践

oo7890

于 2025-07-30 11:13:08 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：低资源语言自动语音识别 ASR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702288

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

低资源语言自动语音识别技术研究与实践

自动语音识别（ASR）在充足标注训练数据的支持下，已能接近人类的识别水平，但在低资源语言场景下，其性能仍有待提升。本文将介绍卡累利阿语和兰巴尼语两种低资源语言的ASR系统开发，包括系统架构、实验结果及未来发展方向。

卡累利阿语ASR系统

卡累利阿语的自动转录相对简单，因为其重音模式固定，元音弱化不常见。自动转录主要处理重音定位、识别双字母表示的长音素以及找出前元音前的腭化辅音。

声学建模

使用Kaldi工具包进行卡累利阿语ASR系统的训练和测试。采用基于因式分解时延神经网络（TDNN - F）的混合DNN/HMM声学模型。网络输入特征为梅尔频率倒谱系数（MFCC）和额外的100维i - 向量。
DNN的核心结构由三个TDNN - F块组成：
- 初始块：由三个TDNN - F层组成，负责处理输入向量（时间上下文为{-1, 0, 1}）。
- 中间块：单个TDNN - F层（无拼接）。
- 最后块：由十个TDNN - F层组成（时间上下文为{-3, 0, 3}）。

每个TDNN - F层维度为1024，瓶颈维度为128。TDNN块中的每个TDNN层后都跟随ReLU激活函数和批量归一化。使用跳跃连接，将除第一层外的每层输出与前一层输出拼接。TDNN - F层后使用维度为256的线性层。学习率在训练过程中动态调整，从0.0005降至0.00005，训练进行8个epoch。

语言建模

开发了n - 元语法和基于LSTM的语言模型，并进行了线性插值。
- 3 - 元语法语言模型（3 - g LM）：使用SRI语言建模

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。