[语音识别] kaldi -- aidatatang_200zh脚本解析:单音素解码

最新推荐文章于 2024-10-21 20:54:36 发布

MachineLP

最新推荐文章于 2024-10-21 20:54:36 发布

阅读量416

点赞数

CC 4.0 BY-SA版权

分类专栏：语音识别文章标签：语音识别 kaldi 单音素解码

本文链接：https://blog.youkuaiyun.com/u014365862/article/details/118775998

语音识别专栏收录该内容

20 篇文章 ¥79.90 ¥99.00

订阅专栏

本文详细解析了Kaldi中用于语音识别的aidatatang_200zh脚本，专注于单音素解码过程。解码流程涵盖从feats和final.mdl模型到生成HCLG.fst的转换，最终输出lat.JOB.gz lattice文件。解码器主要在src/gmmbin/gmm-latgen-faster.cc，同时涉及lattice操作和评分脚本score.sh与steps/score_kaldi.sh。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入：feats & final.mdl & HCLG.fst

输出：lat.JOB.gz

## 在dev数据集上执行
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/dev exp/mono/decode_dev
## 在test数据集上执行
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \
  exp/mono/graph data/test exp/mono/decode_test

流程：

1. gmm-latgen-faster # 生成基于GMM模型的lattice词格
2. steps/diagnostic/analyze_lats.sh
3. local/score.sh
    3.1 steps/score_kaldi.sh
    3.2 steps/scoring/score_kaldi_cer.sh --stage 2

备注：

解码器

目录：src/gmmbin/gmm-latgen-faster.cc
输入：final.mdl & feats & HCLG.fst
输出：lat.JOB.gz

$beam = 13 # beam对象，越大越慢也越准确，默认16，这里13

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MachineLP

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

[语音识别] kaldi -- aidatatang_200zh脚本解析:音素训练

MachineLP的专栏

07-16

370

输入：输出： steps/train_mono.sh --cmd "$train_cmd" --nj 10 \ data/train data/lang exp/mono || exit 1; 流程： 1. apply-cmvn # 对feats.scp做归一化处理 2. add-deltas # 训练数据增加差分量，比如16维度mfcc特征增加2阶差分量后变成48维度 2. gmm-init-mono # 初始化单音素模型，生成0.mdl、tree 3. compile-train-g

[语音识别] kaldi -- aidatatang_200zh脚本解析:检查相关模型

MachineLP的专栏

07-16

516

输入：data/local/lm/3gram-mincount/lm_unpruned.gz 输出：G.fst local/format_data.sh 流程： 1. 解压lm_unpruned.gz并通过arpa2fst转换成G.fst (语言模型概率就成了图权重的一部分) gunzip -c "$arpa_lm" | \ arpa2fst --disambig-symbol=#0 \ --read-symbol-table=data/lang_test/words

参与评论您还未登录，请先登录后发表或查看评论

[语音识别] kaldi -- aidatatang_200zh脚本解析:三音速详解

MachineLP的专栏

07-17

443

# train tri1 [first triphone pass] steps/train_deltas.sh --cmd "$train_cmd" \ 2500 20000 data/train data/lang exp/mono_ali exp/tri1 || exit 1; # steps/train_deltas.sh <num-leaves> <tot-gauss> <data-dir> <lang- dir> <alignment-di.

[语音识别] kaldi -- aidatatang_200zh脚本解析:语言模型准备

MachineLP的专栏

07-16

299

输入：data/local/dict 输出：data/lang (Phone Sets), (L compilation) ... 可选参数： --num-sil-states <number of states> （静音音素的状态数，预设是5） --num-nonsil-states <number of states>（非静音音素的状态数，预设是3） --position-dependent-phones (true|false)（是否开启音素位置标记） --shar

【kaldi】aidatatang_200zh三音素源码逻辑梳理

u011590738的博客

06-27

309

【kaldi】aidatatang_200zh三音素源码逻辑梳理

自然语言处理之语音识别：Kaldi：深度学习在Kaldi中的实践

zhubeibei168的博客

10-21

1070

通过上述内容，我们了解了DNN-HMM模型在Kaldi中的应用，包括模型训练流程、优化技术（如正则化和Dropout）以及DNN与GMM-HMM模型的融合方法。这些技术的结合使用，可以显著提高语音识别系统的性能和效率。请注意，上述总结部分是应您的要求而省略的，但在实际教程中，总结部分可以帮助读者回顾和巩固所学知识，因此在正式文档中应保留。

语音助手之Kaldi实践

AI天才研究院

08-11

744

随着互联网的普及和传播，越来越多的人通过手机、平板电脑等设备使用语音交互。语音助手可以帮助用户更便捷地沟通、控制智能设备，从而实现信息处理效率的提升。近年来，基于深度学习和神经网络的语音识别技术在各个领域都取得了很大的成功，特别是在安卓系统上，谷歌推出的可穿戴助手ASR技术已经取得了不俗的成果。随着语音助手的普及，如何将这些语音技术应用到实际生产环境中并取得良好的效果，成为需要解决的重要课题。本文将介绍基于开源工具Kaldi的语音助手项目开发过程。

语音识别：用声音开启智能交互

AI天才研究院

05-23

1213

1. 背景介绍 1.1 从图灵测试到智能语音交互自人工智能诞生以来，人们就梦想着创造出能够像人类一样理解和响应语音的机器。1950年，艾伦·图灵提出了著名的图灵测试，将机器能否进行自然语言交互作为判断其是否具有智能的标准。语音识别，作为实现人机语音交互的关键技术，自然而然地成为了人工智能领

[语音识别] kaldi -- aidatatang_200zh脚本解析:数据准备

MachineLP的专栏

07-16

863

输入：解压后的语料库路径（data/aidatatang_200zh）输出：text, wav.scp, utt2spk, spk2utt # Data Preparation: generate text, wav.scp, utt2spk, spk2utt local/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1; 流程： 1.参数/文件夹路径等效验 2.检验是

[语音识别] kaldi -- aidatatang_200zh脚本解析: 数据集介绍

MachineLP的专栏

07-14

1142

格式 16kHz 16bit，wav，单声道录音环境安静的室内，噪音不影响语音识别 录音内容 30万条口语化句子录音内容 30万条口语化句子录音人 6,408 人男性 2,999 人，女性 3,301 人录音人 ≤20 岁 1,481 人，21~30 岁 4,412 人，31~40 岁 244 人，40 岁以上 163 人录音人录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域设备

Kaldi单音素GMM学习笔记

04-08

Kaldi单音素GMM学习笔记。从原理、脚本、程序和类四个方面介绍单音素GMM和Kaldi代码。Kaldi单音素GMM学习笔记。从原理、脚本、程序和类四个方面介绍单音素GMM和Kaldi代码。Kaldi单音素GMM学习笔记。从原理、脚本、程序和类四个方面介绍单音素GMM和Kaldi代码。

kaldi自由说训练好的模型

07-08

利用从网上下载的kaldi源码和语音数据，训练好的支持自由说的模型，是模型，模型，模型！不是源码，也不是其他的语音资源文件，需要的朋友可以下载下来，结合kaldi中eg5/aishell/s5的例子使用！

[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备

MachineLP的专栏

07-16

524

输入：text（所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下）输出：data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件) local/prepare_dict.sh || exit 1; 流程： 1.处理自身数据集 - 获取数据集中所有单词【从text中获取】->

【kaldi】运行aidatatang_200zh脚本解析

u011590738的博客

06-27

1054

aidatatang_200zh脚本解析markdown链接 (有道云笔记)格式16kHz 16bit，wav，单声道run.sh 1. 环境配置 cmd.sh 硬件配置（单机/集群配置，单机修改成run.pl) path.sh 环境变量配置（导入环境变量） data 语料库位置 data_url 下载语料库的url （中国镜像已经关闭） 2. 下载数据输入：语料库位置（$data）数据下载路径（$data_url）输出：在$data文件夹下新增解压后的语料库（corpu

[语音识别] kaldi -- aidatatang_200zh脚本解析:构建解码图

MachineLP的专栏

07-17

405

输入：final.mdl & tree & L_disambig.fst & G.fst 输出：HCLG.fst (在exp/xxxx/graph下) ## 构建解码图 ### mkgraph.sh主要生成了HCLG.fst，后续识别主要利用了三个文件，分别是final.mdl、HCLG.fst、words.txt(从lang文件夹 cp过来)。 utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1

[语音识别] kaldi -- aidatatang_200zh脚本解析:下载数据

MachineLP的专栏

07-16

1479

输入：语料库位置（$data）数据下载路径（$data_url）输出：在$data文件夹下新增解压后的语料库（corpus和transcript文件夹，corpus含音频文件和说话人信息等) 可选参数： --remove-archive 决定是否要在解压后删除data压缩包（默认关闭） local/download_and_untar.sh $data $data_url aidatatang_200zh || exit 1; 流程： 1.判断是否开启解压后删除压缩包的开关（根据--re

Kaldi语音识别：aidatatang_asr开源模型实现中文语音识别详细及遇到的问题【亲自跑通】

Ryan0828的博客

11-09

4013

本次项目是基于Kaldi做的中文语音识别，Kaldi是当前最流行的开源语音识别工具。它自带了很多特征提取模块，能提取MFCC/ivector/xvector等语音特征；也自带了很多语音模型代码，可以直接使用或重新训练GMM-HMM等模型；它还支持GPU进行训练。可以说是功能很强大了。更厉害的是，你只需要简单的SHELL编程，就能使用kaldi。kaldi作为一个工具，不需要像库一样进行大量编程，所以使用门槛其实不高。更多的Kaldi相关介绍和安装编译及使用请参考我的这篇博客：语音识别-Kaldi的安装编译.

Kaldi语音识别：基于aidatatang模型实现自制语音数据的识别

Ryan0828的博客

11-10

3390

Speech | 语音合成,语音识别常见数据集及数据格式详情

最新发布

12-28

### 描述aidatatang_200zh数据集该数据集专为语音识别、机器翻译以及声纹识别设计，包含约30万条口语化的句子录音。这些录音由6,408位不同年龄段和性别的人录制，在安静的室内环境中完成，确保了高质量的数据采集[^4]。 #### 录音特征 - **音频格式**: WAV文件，采样率为16kHz，量化精度为16比特。 - **声道数**: 单声道。 - **环境条件**: 安静的室内环境，有效减少背景噪声干扰。 - **参与人数统计**: - 总计: 6,408人； - 年龄分布: ≤20岁者占总人数比例约为23%，即大约1,481名参与者；21至30岁的参与者最多，达到4,412人；而其他年龄组则相对较少。 - 地理位置覆盖广泛，来自中国内地及港澳地区共34个省份的城市。 #### 设备信息用于收集此数据集中大部分样本的是Android手机(占比90%)，其余部分则是通过iOS平台获取。 #### 应用场景与质量评估适用于多种自然语言处理任务，特别是那些依赖于中文普通话发音模式的任务。官方声称其句级标签准确性达到了至少98%的标准。 --- ### 使用方法概述为了充分利用`aidatatang_200zh`资源，需遵循一系列特定的操作流程来准备必要的配置文件并执行相应的Shell命令： #### 下载与解压原始资料包利用Kaldi框架自带的脚本实现自动化下载过程，并可以选择性地移除已解压缩过的档案以节省存储空间: ```bash local/download_and_untar.sh $data $data_url aidatatang_200zh || exit 1; ``` 上述指令中的`$data`变量指向目标目录路径，而`$data_url`代表远程服务器地址。如果希望在完成后清理源文件，则可以添加额外选项`--remove-archive`[^3]。 #### 构建基础索引结构接下来要创建四个核心文本文件——分别是描述每段音频的文字记录(`text`)、关联唯一ID到实际声音片段的位置映射表(`wav.scp`)、说话者身份对照列表(`utt2spk`)及其逆向版本(`spk2utt`)。这一步骤可通过调用如下shell函数轻松达成: ```bash local/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1; ``` 这里假设所有转录文档都存放在指定子文件夹内等待进一步加工处理[^1]。 #### 准备字典资源对于非标准语料库而言，事先准备好一份详尽的语言模型至关重要。考虑到汉语特有的字符组合方式，建议采用第三方工具（如Jieba）预先分割好待分析材料后再导入系统中作为训练依据之一[^2]: ```python import jieba def preprocess_text(input_file_path, output_file_path): with open(input_file_path, 'r', encoding='utf-8') as f_in,\ open(output_file_path, 'w', encoding='utf-8') as f_out: for line in f_in.readlines(): segmented_line = " ".join(jieba.cut(line.strip())) f_out.write(segmented_line + "\n") preprocess_text('path/to/raw_texts.txt', 'path/to/preprocessed_texts.txt') ``` 这段Python代码展示了如何运用结巴分词器快速转换纯文本形式的内容成为适合后续阶段使用的格式。