印地语语音识别与无线传感器网络数据挖掘技术研究
1. 印地语语音识别实验
1.1 基线系统实验
在印地语语音识别的研究中,我们首先构建了基线系统。使用 Kaldi 工具包准备系统,由基于三音素的 GMM 系统生成对齐信息,用于训练基于 CNN 的声学模型。训练过程借助 Pytorch - kaldi 工具包,且所有声学模型训练均采用 Sigmoid 激活函数,优化则使用随机梯度下降(SGD)算法。
以下是不同声学模型的性能评估结果:
| 声学模型 | 特征 | 语言模型 | 字错误率(WER,%) |
| — | — | — | — |
| 单音素 - GMM | MFCC | 三元语法 | 30.20 |
| 三音素 - GMM | MFCC | 三元语法 | 28.85 |
| DNN | FBANK | 三元语法 | 25.50 |
| CNN | FBANK | 三元语法 | 23.06 |
从实验结果可以看出,基于三音素的声学模型提升了自动语音识别(ASR)系统的性能,且 CNN 声学模型的表现最佳,字错误率低至 23.06%。可以用 mermaid 流程图展示该实验流程:
graph LR
A[准备数据] --> B[Kaldi 构建基线系统]
B --> C[GMM 生成对齐信息]
C --> D[Pytorch - kaldi 训练 CNN 模型]
D --> E[不同声学模型评估]
E --> F[得出实验结果]
超级会员免费看
订阅专栏 解锁全文
1414

被折叠的 条评论
为什么被折叠?



