如何用kaldi训练好的DNN模型做在线识别

最新推荐文章于 2023-04-09 19:45:44 发布

原创

最新推荐文章于 2023-04-09 19:45:44 发布 · 8.1k 阅读

11 ·

CC 4.0 BY-SA版权

本文介绍了在已有Kaldi训练的DNN模型基础上，如何应对不同情况下的在线语音识别任务。包括使用新语言模型、新字典和完全重新训练的情况。

在已经训练好模型的情况下，需要针对一个新任务做在线识别应该怎么做呢？

一种情况是，用已有的声学模型和新训练的语言模型。

语言模型可以同srilm等工具训练，但是怎样将语言模型与DNN声学模型一起来进行识别的。

SRILM可以用来训练ARPA格式的LM，假设train.txt是语料，wordlist是词汇，假设语言模型的字典和识别器的字典一样，可以按如下办法训练ＬＭ

ngram-count -text train.txt -order 3 -limit-vocab -vocab wordlist -unk \
  -map-unk "<unk>" -kndiscount -interpolate -lm srilm.o3g.kn.gz

然后通过下面的命令将ARPA格式的LM转化成WFST格式

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SpeechScience

关注关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Kaldi全解析：构建高效语音识别系统的全面指南

海棠AI实验室

02-07

1694

Kaldi 是一款专门面向语音识别研究的开源工具包，由国际化的研究团队维护，在学术界和工业界都得到了广泛应用。Kaldi 采用 C++ 编写，底层结合 BLAS 和 LAPACK 等高效线性代数库，可支持 CPU 和 GPU 进行大规模模型训练与推理。无论你是初学者还是经验丰富的语音识别研究人员，Kaldi 都能提供强大的性能和灵活的扩展性。Kaldi 为语音识别研究和开发提供了从音频特征提取、对齐到解码评估的全流程工具。

基于kaldi训练唤醒词模型的一种方法

热门推荐

遇逆境、泰然处之

03-07

1万+

0. 前言什么是唤醒？激活Google智能助手，你可以对手机说“Hey Google”或者“OK Google”，其他诸如阿里的天猫精灵智能音箱（天猫精灵）、京东的叮咚智能音箱（叮咚叮咚），百度语音助手（小度小度）等等，需要采用唤醒词才能激活设备，然后再对设备进行一系列控制语音输入，一方面减小了智能音箱执行错误操作的概率，另一方面也降低了整个设备的功耗。本文基于开源语音识别kaldi平...

3 条评论您还未登录，请先登录后发表或查看评论

kaldi自由说训练好的模型

07-08

利用从网上下载的kaldi源码和语音数据，训练好的支持自由说的模型，是模型，模型，模型！不是源码，也不是其他的语音资源文件，需要的朋友可以下载下来，结合kaldi中eg5/aishell/s5的例子使用！

kaldi训练thchs30做在线识别

zhiwei_chen的博客

01-02

1474

机器环境：cpu+ubuntu16.04+24g内存，8g内存训练会出错，只能训练出单音节模型。 kaldi的编译源码直接在Github上clone下来<https://github.com/kaldi-asr/kaldi>。介绍下如下的几个目录： tools/: 主要存放了 Kaldi 依赖的包已经各种工具，如：OpenFST, ATLAS, IRSTLM, sph2pipe 等...

Kaldi各种已经训练好的模型

robingao1994的博客

10-15

9898

做个记录 http://kaldi-asr.org/models.html 这网站是Kaldi中各种语音任务pretrained过的模型有视源ASR的, xvector做声纹识别的, emebedding做diarization的, 大部分是用LDC的死贵死贵的语料训练的直接把这些模型拿去解码或者拿去用都可以得出一个很不错的效果, 我们在x-vector参加的NIST评测和自己实验的...

Kaldi学习-训练简单语言模型

lanshan1111的博客

08-01

485

在使用gmm-copy命令查看声学模型时，可能会出现找不到改命令的错误，可以这样使用该命令~/kaldi/src/gmmbin/gmm-copy--binary=falsefinal.mdlfinal.txt。其中~/kaldi/src/gmmbin/gmm-copy是该命令所在位置。

【Kaldi例子】Kaldi经典声学建模

qq_39573785的博客

01-12

3666

基本概念在经典语音识别框架中，一个声学模型就是一组HMM。对于语音识别框架中的声学模型中的每个HMM，都定义该HMM中有多少个状态，以及以各个状态起始的马尔可夫链的初始概率、个状态间的转移概率和每个状态的概率分布函数。在语音识别实践中，一般令初始概率恒为1，把状态间的转移概率预设为固定值，不在训练过程中更新状态转移概率。声学模型包含的信息主要是状态定义和各状态的观察概率分布。如果使用高斯混合模型对观察概率分布建模，那就是GMM-HMM模型，如果用神经网络模型对观察概率分布建模，那就是NN-HMM。 HM

基于Kaldi语音识别框架的DNN模型中文语音识别设计源码

最新发布

02-26

模型文件和训练数据文件则是构建和训练DNN模型的基础。特别地，"DNN_train.sh"、"Create_ngram_LM.sh"、"cmd.sh"和"path.sh"等Shell脚本文件，提供了训练模型和生成语言模型的具体指令，方便开发者部署和使用。在...

PyTorch-Kaldi: 实现DNN/HMM语音识别系统的新工具包

4. 解码和优化：使用Kaldi的解码器对训练好的模型进行解码，并且进行必要的参数调整和优化，以提高识别准确率。 5. 实时处理：Matlab代码设置的目的是让系统能够每隔一秒处理一次语音输入，这要求系统具备一定的...

语音识别学习记录 [kaldi的chain model]

emmmmmm

07-30

6415

kaldi 中的'chain' models 简介 chain model是DNN-HMM模型的一种，使用nnet3结构，与传统模型有很多不同点。可以将它看作声学模型的一个创新点。使神经网络的输出的帧率缩小三倍，明显的缩小了测试时的计算量，使实时解码更加容易模型从一开始就用序列级目标函数（正确序列概率的对数）进行训练。MMI在GPU上的实现没有使用Lattices（词图），而是通过在解码...

kaldi-tuda-de:用Kaldi训练用于ASR的通用大词汇量德国声学模型的脚本

04-06

开源语音识别配方和语料库，用于使用Kaldi构建德国声学模型此配方和脚本集合使您能够训练大型词汇的德国声学模型，以使用与说话者无关的自动语音识别（ASR）。脚本当前使用三种免费的德语语音语料库：Tuda-De语料库在达姆施塔特工业大学与Microsoft Kinect和其他两个麦克风同时录制，并已根据许可许可。该语料库折衷每个麦克风约31小时的训练数据，而将约5小时分为开发和测试分区。我们还利用了的德语子集，其中包含约285h的附加数据以及的德语子集（237h）。最近，我们还添加了来自Mozilla（）的German Commonvoice语料库，其中包含370h的数据。我们使用来自Tuda-De的测试/开发集进行WER评估。默认情况下，最新配方（s5_r2）对来自多个麦克风的数据进行训练和测试（除Realtek以外的所有麦克风-总计约127h的音频）。通过编辑ru

[kaldi]如何微调模型

panxin801的博客

07-31

1188

kaldi 如何微调模型 Author : Xin Pan Date: 2020.07.22 在已经有了一个模型的基础上如何去微调一个模型？需要的文件基础模型文件夹A(需要包含final.mdl以及tree，除此以外还需要ali.*.gz文件）； data文件夹以及保存特征的文件夹；新模型文件夹B(需要包含final.mdl以及tree); exp/tri4_lat 那么需要做哪些更改？首先需要下边的额外步骤; local/chain/run_tdnn.sh stage=10; train.

kaldi训练完DFSMN模型后exp文件内容

weixin_44456645的博客

11-01

392

训练了2天，然后就产生了这些文件，只后应该怎么用呢？有哪位大神可以指导一下，谢谢

kaldi 中mono phone训练过程

quheDiegooo的专栏

04-11

4330

kaldi中训练声学模型，首先是训练单音素模型，即mono-phone过程，本文主要讲述mono-phone训练的过程。

kaldi HMM-GMM 全部训练脚本分解

dahunihao的博客

11-08

680

原文： https://blog.csdn.net/chinatelecom08/article/details/81875547 ##train_mono.sh 单音素训练脚本： //初始化，[topo feats] -> [0.mdl tree] gmm-init-mono //生成训练图，[0.mdl text l.fst] -> [train.fst] compile-...

Kaldi(A5)语言模型及HCLG.fst生成

Just for fun的专栏

12-26

1204

这节介绍一下如何修改生成适合自己场景的语言模型。 Ref Online decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html 修改语言模型首先，我们为什么要修改语言模型？虽然已有现成的Fisher_English或者Librispeech的HCLG.fst，但是他们用到的是3-gram，也就是说上下文一共是3个单词，而且文本涵盖的范围很广。假如我只想在特定范围内进行识别呢？比如仅仅在对某个智能音箱的指令范围内？

Kaldi使用online2-wav-gmm-latgen-faster解码mono模型

weixin_38884133的博客

07-31

887

这里写自定义目录标题Kaldi使用online2-wav-gmm-latgen-faster解码mono模型文件准备解码 Kaldi使用online2-wav-gmm-latgen-faster解码mono模型本博客介绍kaldi使用online2-wav-gmm-latgen-faster解码wav文件文件准备该可执行程序需要3个准备文件。 scp文件：对应wav路径，可自己通过脚本生成； spk2utt文件：对应speakerid，可自己通过脚本生成； config文件，对应mdl路径和onli

【kaldi】aishell1数据集跑通所展示代码

m0_56321289的博客

04-09

521

在ubuntu22中用kaldi工具跑通aishell的代码一览

关于prepare_lang的一点理解

mengjianmuzi的博客

08-14

2104

意大利语KALDI-DNN语音识别系统及儿童语音实验

文章首先简要概述了KALDI，然后详细阐述了其深度神经网络（DNN）实现，接着介绍了声学模型（AM）的训练过程，最后描述了在意大利儿童语音上的实验以及最终的测试程序。关键词包括：DNN、儿童语音、ASR。" 在最近几...