pocketsphinx 模型库_PocketSphinx声学模型的训练与使用

最新推荐文章于 2025-04-16 19:18:34 发布

weixin_39943868

最新推荐文章于 2025-04-16 19:18:34 发布

阅读量552

点赞数

文章标签： pocketsphinx 模型库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39943868/article/details/111838805

版权

本文详细介绍了如何使用SphinxTrain工具训练适用于PocketSphinx的半连续HMM声学模型，包括训练前的准备工作，如创建字典、音素文件、语言模型等，以及录制和处理音频数据的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声学模型主要用于计算语音特征和每个发音模板之间的似然度。目的是为每个声学单元建立一套模型参数(通过不断地学习和改进得到最优的，也就是概率最大的一组HMM模型参数)。

需要训练的情况：

1)需要创建一个新的语音或者方言的模型；

2)为你的小词汇的应用创建一个特定的模型；

3)你有足够的大量的语音数据：单的人的话(控制指令)需要1小时的录音，200个人的话需要50小时的录音。

4)你需要有语言的音素结构的知识；

5)你有足够的时间去训练和优化(大概需要一个月)。

如果不具备以上的情况或者条件，那么用模型增强(适应)比训练一个新的模型更有效。

另外，你的语音数据库应该能够比较好地代表你所要识别的语音，而且最好是多个人的录音数据，而且包含多种录音情况，还有所有可能的语言学句子。语音数据库包含两个部分：训练集和测试集，一般来说，测试集占全部数据库的1/10，但最好不要超过4个小时的录音时长。

获得一个语音数据库的一个比较好的方式是：

1)对现有的你需要识别的语音的录音材料进行切割，例如新闻或者电台播音等；

2)把你身边的人，例如家人，朋友或者同事的语音录下来；

3)在voxforge上面收集；

SphinxTrain是CMU大学开发的开源声学模型训练器。此工具可以训练适应于PocketSphinx的半连续HMM声学模型，也可以训练应用于Sphinx3的连续HMM声学模型。

(1)需要准备的文件：

在进行训练之前，先通过SphinxTrain中的wave2feat文件对音频文件进行特征提取，得到的MFCC特征参数文件，并把它们作为声学模型训练的输入。在进行训练之前，需要建立如下准备文件：

分别创建两个目录etc和wav，然后在两个目录下面制作一些数据文件，方便后面训练时使用。待会需要的目录及文件如下所示：

etc：

your_db.dic - Phonetic dictionary

your_db.phone – Phone set file

your_db.lm.DMP - Language model

your_db.filler - List of fillers

your_db_train.fileids - List of files for training

your_db_train.transcription - Transcription for training

your_db_test.fileids - List of files for testing

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。