使用SpeechRecognition和vosk处理ASR

原创

已于 2024-04-15 16:02:00 修改 · 3k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

于 2024-04-15 16:01:42 首次发布

本文介绍了如何安装和使用SpeechRecognition库以及vosk库进行语音转文字，比较了不同模型的性能，提到百度的PaddleSpeech在安装上的困难，同时提到了使用麦克风录音和处理不同格式音频的方法，但指出SpeechRecognition缺少标点恢复功能。

SpeechRecognition可以支持多种模型语音转文字，感觉vosk还不错，使用起来也简单一些；百度也有PaddleSpeech，但是安装起来太麻烦，不是这个库版本不对就是那个库有问题，用起来不方便；

安装SpeechRecognition库：

pip install SpeechRecognition

安装vosk库：

pip install vosk

使用vosk库还需要下载对应的模型，去官网VOSK Models下载：

中文的有3个模型，模型小的运行快，准确度没有大的好，选一个下载完zip解压就行，代码里配置目录和模型，为了方便直接解压到项目目录里了：

另外需要wav语音测试文件，可以自己录音或者去在线免费文字转语音 - TTSMaker官网 | 马克配音制造点wav语音文件；

demo：

#!/usr/bin/env python3
# coding = utf-8
"""
# Project: workspace_py
# File: test_speech_recognition_vo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FlyLikeButterfly

关注关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

241205_使用本地vosk模型实现流式语音识别

weixin_66378701的博客

12-05

2705

上一篇我们使用了vosk模型实现了本地的语音识别，但是存在一个严重的问题，因为我们采用的是整段音频录制结束之后再进行转文字并进行关键字检索，就会导致识别不实时，在环境噪音较为复杂（或者正在播放音乐时），我们说完了话他还在持续录音状态，识别太慢了，并且有时候他把音乐声音也录进去，导致识别错误。因为我们转换出来的结果是单词级别的，所以可能会产生识别的每一个单独的词之间都有空格，我们在process_command方法中需要去除掉这些空格，重新把他拼接成一个句子，实现我们的关键词检索。在weekup方法中。

python-根据语音识别让无字幕视频自动生成字幕，附srt字幕文件

lidashent的博客

02-25

1万+

文章目录问题解决思路导出音频分片，导出音频时间信息自动识别停顿，对声音切片编写函数，对语音分片实现语音识别，得到文字信息对csv文件处理，得到编写srt文件需要的信息处理时间格式的代码主文件调用，并主导srt文件生成问题各大平台都有长语音转写的服务，但是收费昂贵，而且有次数和时间限制。因此我想到了一个白嫖的好办法。将长音频根据语句停顿切割得到短音频，使用他们提供的短音频识别服务来识别长音频不是更好吗？粗略计算了下，可以使用的时长为50000分钟，白嫖。至于视频声音的停顿时间也是很容易得到的。最后根

参与评论您还未登录，请先登录后发表或查看评论

vosk中文model资源，

04-17

vosk中文model，官网链接：https://alphacephei.com/vosk/models/vosk-model-cn-0.1.zip

语音vosk识别 - vosk

热门推荐

爱看书的小沐

12-09

2万+

SpeechRecognition用于执行语音识别的库，支持多个引擎和 API，在线和离线。以上几个中只有 recognition_sphinx（）可与CMU Sphinx 引擎脱机工作，其他六个都需要连接互联网。另外，SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥，可直接使用它。其他的 API 都需要使用 API 密钥或用户名/密码组合进行身份验证。╮(￣▽￣)╭如果您感觉方法或代码不咋地//(ㄒoㄒ)//，就在评论处留言，作者继续改进；

node.js使用vosk

暮雪的博客

04-17

1726

node.js，vosk

精选资源

vosk-server:基于Vosk和Kaldi库的WebSocket，gRPC和WebRTC语音识别服务器

04-30

这是使用Kaldi和进行高精度离线语音识别的服务器。有四种支持四种主要通信协议的服务器-MQTT，GRPC，WebRTC和Websocket 该服务器可以在本地使用，以为智能家居，PBX（如freeswitch或星号）提供语音识别。该...

精选资源

vosk-android-demo:具有Vosk库的Android离线语音识别

04-29

Kaldi是Vosk的基础，Vosk在其之上进行了优化，更适合嵌入式和移动平台的使用。 3. **离线语音识别**：离线语音识别是指在没有网络连接的情况下，通过本地设备处理和解析用户的语音输入。这对于保护用户隐私、确保...

精选资源

vosk-browser:借助Vosk的WebAssembly构建，浏览器中运行的语音识别库

05-03

该库负责所做的工作，并将更新的Vosk WebAssembly构建打包为易于使用的浏览器库。注意：WebAssembly构建可以针对NodeJS，浏览器的主线程或Web Worker。该库显式编译了Vosk以在WebWorker上下文中使用。如果要在...

Java调用Whisper和Vosk语音识别(ASR)模型，实现高效实时语音识别(附源码)

deng775747758的博客

09-08

1744

使用SmartJavaAI在java中调用Whisper及Vosk语音识别模型实现高效实时语音识别

STTWebApp:使用工具“ Vosk”将音频转录为葡萄牙语文本的Web应用程序

05-31

STTWeb应用程序使用工具“ Vosk”将音频转录为葡萄牙语文本的Web应用程序环境 Python 3.8.5 pip install -r requirements.txt 跑步 flask run # runs app 在 Web 浏览器中打开网站：截屏结构 ─Transcrição de áudio │ ├───app │ ├───blueprints │ │ └───__pycache__ │ ├───ext │ │ └───__pycache__ │ ├───static │ │ ├───css │ │ └───images │ ├───STT │ │ └───Vosk │ ├───templates │ └───__pycache__ └───model └───ivector

语音识别-vosk-中文识别模型

03-30

vosk-model-small-cn-0.3 Vosk是一个离线开源语音识别工具。它可以识别16种语言，包括中文。 API接口，让您可以只用几行代码，即可迅速免费调用、体验功能。目前支持 WAV声音文件格式。 GITHUB 源码： https://github.com/alphacep/vosk-api 模型下载：https://alphacephei.com/vosk/models API调用示例文件：包含python/nodejs/curl版本（http://www.moneymeeting.club/wp-content/uploads/2020/10/vosk.rar）我在网页下载了好久，所以分享在这里，应该不会比那里还要慢吧

voiceProject:使用VOSK进行语音识别和综合库的Python开发，创建了一些实用程序，例如NUXERA assistant，DinoVoice和Eliza

04-17

更改为英文版语音项目 :speaker_high_volume: VoiceProject是交互式和沉浸式多媒体系统（SMII）主题项目的一个项目，选修了UPV的计算机工程专业四年级。该项目旨在演示语音识别和合成库的不同用途 :speaker_high_volume: 。您可以在此回购中找到什么？ :rocket: 在此项目中，您可以找到由VOSK制作的名为的基本助手，该助手可以自动播放SNES的语音或带有语音的Eliza语音。前提条件 :clipboard: 这些程序及其各自的安装脚本旨在在Ubuntu 20.04上运行 :laptop: 因此，不能保证在其他发行版或操作系统中的操作，我们邀请您进行拉取请求，为您的系统添加更改。要获取所有代码，请在系统上运行以下命令： > git clone https://github.com/UzuRodri95/voiceProject 安装 :wrench: 以下是安装项目的步骤。每个项目都有一个唯一的依赖项安装脚本：执行步骤 »Nuxera，GNU /

ASR 语音识别

08-22

语音识别的教科书，微软出版的，对整个语音识别的过程会有更深的了解

使用vosk离线语音识别模型进行中文语音speech识别

skywalk8163的专栏

12-01

7459

Vosk是言语识别工具包。支持二十+种语言，移动设备上脱机工作-Raspberry Pi，Android，iOS，有一个非常大的微信群，

使用 Vosk 实现语音识别

weixin_48967543的博客

09-18

9338

在近两年里，如果说想要在本地部署离线语音识别模型，那么和肯定是首选项。所以为什么要使用呢？

语音识别——使用Vosk进行语音识别

山河君的分享博客

10-21

1万+

如何编译Vosk请参照之前的文章，ubuntu编译kaldi和voskVosk是语音识别开源框架，支持二十+种语言 - 中文，英语，印度英语，德语，法语，西班牙语，葡萄牙语，俄语，土耳其语，越南语，意大利语，荷兰人，加泰罗尼亚语，阿拉伯, 希腊语, 波斯语, 菲律宾语，乌克兰语, 哈萨克语, 瑞典语, 日语, 世界语, 印地语, 捷克语, 波兰语, 乌兹别克语, 韩国语, 塔吉克语。并且支持设备上离线语音识别 ，包括Raspberry Pi，Android，iOS等，API接口简单，并且有多种语言支持。

python使用VOSK实现离线语音识别（中文普通话）

学习·工作

10-09

2万+

VSOK实现离线语音识别，效果还不错

Android Vosk库实现移动应用离线语音识别

此外，通过查看该项目的文档和说明，开发者可以更深入地理解如何配置和使用Vosk库，以及如何在实际项目中解决可能出现的问题。对于使用Java语言的Android开发者来说，该项目提供了一个宝贵的参考。Java是Android...