开源语音识别软件
现在开源语音识别软件有很多,许多还来自大厂,可以根据需要选择。
我选择两个测试了一下。
一、kaldi
项目地址:https://github.com/kaldi-asr/kaldi
模型下载地址:http://kaldi-asr.org/models.html
按照安装说明,安装过程如下:
1、编译openfst
地址:https://github.com/kkm000/openfst
下载源码后使用VS2017编译

2、下载OpenBLAS包
下载地址:
http://sourceforge.net/projects/openblas/files/v0.2.14/OpenBLAS-v0.2.14-Win64-int32.zip
http://sourceforge.net/projects/openblas/files/v0.2.14/mingw64_dll.zip
下载完成解压缩即可。
3、生成kaldi工程文件
下载kaldi源码解压后,修改windows目录下配置文件
(1)复制variables.props.dev 改名为variables.props,修改里面的路径配置
(2)复制the file kaldiwin_openblas.props 改名kaldiwin.props
生成工程文件:
./generate_solution.pl --vsver vs2017 --enable-openblas
./get_version.pl
这时在kaldi目录下会生成kaldiwin_vs2017_OPENBLAS目录
4、编译工程
打开kaldiwin_vs2017.sln,可以看到里面有651个项目,如果都编译时间比较长,我只选择了online2-wav-nnet3-latgen-faster编译。
编译时选择x64,如果报错找不到头文件或库文件,可以通过属性管理器修改项目配置。

重新生成项目,显示出一些警告,还好没有错误。

5、测试
在x64\Debug目录下可以看到生成的exe文件,这时执行时会报错,提示

本文介绍了在个性化菜谱APP中实现语音识别功能的过程,包括对比开源的kaldi和DeepSpeech,以及最终选择并集成百度语音SDK。通过REST-API-PythonSDK和Android SDK两种方式实现APP端的语音控制命令,如打开菜谱、查询等。
最低0.47元/天 解锁文章
927

被折叠的 条评论
为什么被折叠?



