kaldi运行thchs30数据集lexicon.txt ERROR

本文详细介绍如何在Kaldi框架下部署THCHS30语音数据集,包括环境配置、并行任务设置及解决lexicon.txt错误的具体步骤,确保语音识别系统的顺利搭建。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. kaldi/egs/thchs30创建thchs30-openslr,将所有压缩包解压到这下面,文件目录如下
thchs30-openslr
├── data_thchs30
├── resource
└── test-noise

 2.打开s5目录,编辑cmd.sh. 修改为本地运行, 如下

export train_cmd=run.pl
export decode_cmd=run.pl
export mkgraph_cmd=run.pl
export cuda_cmd=run.pl

3.修改s5下面的run.sh脚本,可以改两个地方

#n=4      #parallel jobs 修改并行任务的数量,可以根据cpu的个数来定
n=2      #parallel jobs
#thchs=/nfs/public/materials/data/thchs30-openslr #修改文件路径,改成你的文件路径
thchs=/home/kaldi/egs/thch30/thchs30-openslr

然后./run.sh, 出现exicon.txt错误:

Checking data/dict/lexicon.txt
--> reading data/dict/lexicon.txt
--> text seems to be UTF-8 or ASCII, checking whitespaces
--> text contains only allowed whitespaces
--> ERROR: phone "file" is not in {, non}silence.txt (line 2)
--> ERROR: phone "(standard" is not in {, non}silence.txt (line 2)
--> ERROR: phone "input)" is not in {, non}silence.txt (line 2)
--> ERROR: phone "matches" is not in {, non}silence.txt (line 2)

这是grep命令引起的,打开run.sh,找到

grep -v '<s>' | grep -v '</s>' | sort -u > data/dict/lexicon.txt || exit 1;

改为

grep -v -a '<s>' | grep -v -a '</s>' | sort -u > data/dict/lexicon.txt || exit 1;

运行OK

基于深度学习识别THCHS30数据集 深度学习(Deep Learning,简称DL)是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,其目标是让机器能够像人一样具有分析学习能力,识别文字、图像和声音等数据。深度学习通过学习样本数据的内在规律和表示层次,使机器能够模仿视听和思考等人类活动,从而解决复杂的模式识别难题。 深度学习的核心是神经网络,它由若干个层次构成,每个层次包含若干个神经元。神经元接收上一层次神经元的输出作为输入,通过加权和转换后输出到下一层次神经元,最终生成模型的输出结果。神经网络之间的权值和偏置是神经网络的参数,决定了输入值和输出值之间的关系。 深度学习的训练过程通常涉及反向传播算法,该算法用于优化网络参数,使神经网络能够更好地适应数据。训练数据被输入到神经网络中,通过前向传播算法将数据从输入层传递到输出层,然后计算网络输出结果与实际标签之间的差异,即损失函数。通过反向传播算法,网络参数会被调整以减小损失函数值,直到误差达到一定的阈值为止。 深度学习中还包含两种主要的神经网络类型:卷积神经网络(Convolutional Neural Networks,简称CNN)和循环神经网络(Recurrent Neural Networks,简称RNN)。卷积神经网络特别擅长处理图像数据,通过逐层卷积和池化操作,逐步提取图像中的高级特征。循环神经网络则适用于处理序列数据,如文本或时间序列数据,通过捕捉序列中的依赖关系来生成模型输出。 深度学习在许多领域都取得了显著的成果,包括计算机视觉及图像识别、自然语言处理、语音识别及生成、推荐系统、游戏开发、医学影像识别、金融风控、智能制造、购物领域、基因组学等。随着技术的不断发展,深度学习将在更多领域展现出其潜力。 在未来,深度学习可能会面临一些研究热点和挑战,如自监督学习、小样本学习、联邦学习、自动机器学习、多模态学习、自适应学习、量子机器学习等。这些研究方向将推动深度学习技术的进一步发展和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值