返回语音大模型专栏总目录
目录
(!!!按照文档写的,使用python的同志直接跳过,看二、使用sherpa-ncnn的python API实现语音识别)
1. 进入sherpa-ncnn文件夹后,新建build文件并进入build目录
二、使用sherpa-ncnn的Python API实现语音识别
D. 让python命令可以直接调用python3,执行如下命令
E. 安装portaudio(我在后面的执行中的出现了报错,显示sounddevice不包括protaudio,解决办法就是单独安装一下),命令如下
获取该开源项目的渠道,是我在b站上,看到了由csukuangfj制作的一套语音识别视频。以下地址均为csukuangfj在视频中提供,感谢分享!
新一代Kaldi + RISC-V: VisionFive2 上的实时中英文语音识别_哔哩哔哩_bilibili
文档地址:Python API — sherpa 1.3 documentation
该开源项目可以在linux\windows\ios\安卓使用
我用的机器是ubuntu22虚拟机进行测试
请注意,需要首先安装安装了所有必要的依赖项,包括 CMake、Git 和一个合适的 C/C++ 编译器。如果遇到任何问题,您可以查看 sherpa-ncnn
的 GitHub 仓库(Issues · k2-fsa/sherpa-ncnn · GitHub)或相关文档获取帮助。
使用sherpa-ncnn前,安装并编译过kaldi,所以在编译sherpa-ncnn前只安装了cmake
安装命令如下:
sudo apt install cmake
其他依赖如需安装,可以参考kaldi的相关依赖安装
一、安装sherpa-ncnn
(!!!按照文档写的,使用python的同志直接跳过,看二、使用sherpa-ncnn的python API实现语音识别)
按照要求,执行安装命令:
(一)下载sherpa-ncnn脚本文件
git clone https://github.com/k2-fsa/sherpa-ncnn
(二)编译
1. 进入sherpa-ncnn文件夹后,新建build文件并进入build目录
cd sherpa-ncnn
mkdir build
cd build
2. 配置编译
cmake -DCMAKE_BUILD_TYPE=Release ..
3. 开始编译
make -j 6
编译后结果显示如下:
编译后,在bin文件夹获得这两个文件:
4.(可选)剥离二进制文件:
您可以通过 strip
命令减小二进制文件的大小,移除调试符号
回到sherpa-ncnn文件夹中,执行下列命令:
strip bin/sherpa-ncnn
strip bin/sherpa-ncnn-microphone
二、使用sherpa-ncnn的Python API实现语音识别
参考Python API — sherpa 1.3 documentation
我们将实现如下工作:
实时语音识别
识别一个文件
(一) 安装必备软件及依赖
在Linux或Windows上使用时,python版本必须>=3.6
如果您使用方法1,它将安装预编译的库。缺点是它可能没有针对您的平台进行优化,而优点是您不需要安装cmake或C++编译器。
对于其他方法,需要先执行以下命令:
安装cmake:
pip install cmake
C++编译器,例如在Linux和ma