个性化菜谱APP的实现（六）语音识别功能实现

最新推荐文章于 2025-09-25 00:22:07 发布

原创

最新推荐文章于 2025-09-25 00:22:07 发布 · 1.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了在个性化菜谱APP中实现语音识别功能的过程，包括对比开源的kaldi和DeepSpeech，以及最终选择并集成百度语音SDK。通过REST-API-PythonSDK和Android SDK两种方式实现APP端的语音控制命令，如打开菜谱、查询等。

开源语音识别软件

现在开源语音识别软件有很多，许多还来自大厂，可以根据需要选择。

我选择两个测试了一下。

一、kaldi

项目地址：https://github.com/kaldi-asr/kaldi

模型下载地址：http://kaldi-asr.org/models.html

按照安装说明，安装过程如下：

1、编译openfst

地址：https://github.com/kkm000/openfst

下载源码后使用VS2017编译

2、下载OpenBLAS包

下载地址：

http://sourceforge.net/projects/openblas/files/v0.2.14/OpenBLAS-v0.2.14-Win64-int32.zip

http://sourceforge.net/projects/openblas/files/v0.2.14/mingw64_dll.zip

下载完成解压缩即可。

3、生成kaldi工程文件

下载kaldi源码解压后，修改windows目录下配置文件

（1）复制variables.props.dev 改名为variables.props，修改里面的路径配置

（2）复制the file kaldiwin_openblas.props 改名kaldiwin.props

生成工程文件：

./generate_solution.pl --vsver vs2017 --enable-openblas

./get_version.pl

这时在kaldi目录下会生成kaldiwin_vs2017_OPENBLAS目录

4、编译工程

打开kaldiwin_vs2017.sln，可以看到里面有651个项目，如果都编译时间比较长，我只选择了online2-wav-nnet3-latgen-faster编译。

编译时选择x64，如果报错找不到头文件或库文件，可以通过属性管理器修改项目配置。

重新生成项目，显示出一些警告，还好没有错误。

5、测试

在x64\Debug目录下可以看到生成的exe文件，这时执行时会报错，提示

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。