使用sherpa-ncnn进行中文语音识别(ubuntu22)

返回语音大模型专栏总目录

目录

语音大模型专栏总目录

一、安装sherpa-ncnn

(!!!按照文档写的,使用python的同志直接跳过,看二、使用sherpa-ncnn的python API实现语音识别)

(一)下载sherpa-ncnn脚本文件

(二)编译 

1. 进入sherpa-ncnn文件夹后,新建build文件并进入build目录

 2. 配置编译

3. 开始编译

 4.(可选)剥离二进制文件: 

二、使用sherpa-ncnn的Python API实现语音识别

(一) 安装必备软件及依赖

(二)安装 Python 包 sherpa-ncnn

2. 方法2

3. 方法3

4. 方法4(适用于开发者和嵌入式开发板)

5. 检查安装是否成功

(1)检查方法1

(2)检查方法2

(三)实时语音识别

1.实时语音识别(使用麦克风)

(1)环境配置

        A. 设置虚拟机共享主机麦克风

        B. 测试麦克风 

        C. 安装python声音设备驱动包,命令如下:

         D. 让python命令可以直接调用python3,执行如下命令

        E. 安装portaudio(我在后面的执行中的出现了报错,显示sounddevice不包括protaudio,解决办法就是单独安装一下),命令如下

(2)使用下列代码

(3)创建识别器:使用模型: csukuangfj/sherpa-ncnn-conv-emformer-transducer-2022-12-06 (Chinese + English) 可以同时识别英语和中文。

A. 进入sherpa-ncnn目录

B.执行下列命令,下载模型

(4)执行语音识别功能

(四)识别一个Wav文件

1. 获得脚本

2. 执行脚本

3. 替换指定文件路径


        获取该开源项目的渠道,是我在b站上,看到了由csukuangfj制作的一套语音识别视频。以下地址均为csukuangfj在视频中提供,感谢分享!

新一代Kaldi + RISC-V: VisionFive2 上的实时中英文语音识别_哔哩哔哩_bilibili

开源项目地址:GitHub - k2-fsa/sherpa-ncnn: Real-time speech recognition using next-gen Kaldi with ncnn without Internet connection. Support iOS, Android, Raspberry Pi, VisionFive2, LicheePi4A etc.

文档地址:Python API — sherpa 1.3 documentation

该开源项目可以在linux\windows\ios\安卓使用

我用的机器是ubuntu22虚拟机进行测试

        请注意,需要首先安装安装了所有必要的依赖项,包括 CMake、Git 和一个合适的 C/C++ 编译器。如果遇到任何问题,您可以查看 sherpa-ncnn 的 GitHub 仓库(Issues · k2-fsa/sherpa-ncnn · GitHub)或相关文档获取帮助。

        使用sherpa-ncnn前,安装并编译过kaldi,所以在编译sherpa-ncnn前只安装了cmake

        安装命令如下:

sudo apt install cmake

其他依赖如需安装,可以参考kaldi的相关依赖安装

详细解析Ubuntu22 部署Kaldi大模型-优快云博客

一、安装sherpa-ncnn

(!!!按照文档写的,使用python的同志直接跳过,看二、使用sherpa-ncnn的python API实现语音识别)

按照要求,执行安装命令:

(一)下载sherpa-ncnn脚本文件

git clone https://github.com/k2-fsa/sherpa-ncnn

(二)编译 

1. 进入sherpa-ncnn文件夹后,新建build文件并进入build目录

cd sherpa-ncnn
mkdir build
cd build

 2. 配置编译

cmake -DCMAKE_BUILD_TYPE=Release ..

3. 开始编译

make -j 6

编译后结果显示如下:

编译后,在bin文件夹获得这两个文件:

 4.(可选)剥离二进制文件: 

        您可以通过 strip 命令减小二进制文件的大小,移除调试符号

        回到sherpa-ncnn文件夹中,执行下列命令:

strip bin/sherpa-ncnn
strip bin/sherpa-ncnn-microphone

二、使用sherpa-ncnn的Python API实现语音识别

         参考Python API — sherpa 1.3 documentation 

        我们将实现如下工作:

                实时语音识别

                识别一个文件

(一) 安装必备软件及依赖

         在Linux或Windows上使用时,python版本必须>=3.6       

        如果您使用方法1,它将安装预编译的库。缺点是它可能没有针对您的平台进行优化,而优点是您不需要安装cmake或C++编译器。

        对于其他方法,需要先执行以下命令:

        安装cmake:

pip install cmake

         C++编译器,例如在Linux和ma

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静候光阴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值