基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

【框架地址】

https://github.com/modelscope/FunASR

【简单介绍】

FunASR是一个功能全面的语音识别工具包,支持多种预训练模型的推理和微调,提供高精度和高效能的语音识别服务。结合PyAudio库,可以实现电脑本地麦克风实时语音识别项目。

该项目首先通过PyAudio库捕获麦克风输入的音频数据,PyAudio是一个跨平台的音频I/O库,可以方便地访问麦克风等音频设备。捕获的音频数据经过预处理,包括降噪、去除回声等,以提高识别准确率。

随后,使用FunASR中的实时语音识别模型(如Paraformer-zh-streaming)对预处理后的音频数据进行处理。这些模型能够实时地将音频数据转换为文本信息,支持中文等多语言识别。

在识别过程中,FunASR还提供了语音端点检测(VAD)功能,自动检测语音片段的开始和结束,以提高识别效率。同时,还可以添加标点恢复(PR)功能,为识别结果添加标点符号,提升可读性。

最终,识别结果会实时显示在界面上,用户可以通过界面实时查看和编辑识别结果。整个项目流程简洁高效,为实时语音识别应用提供了有力支持。

【测试环境】

anaconda3+python3.9

torch==2.0.1+cu117

funasr==1.1.4

modelscope==1.16.1

PyAudio ==0.2.14

【调用代码】

from FunasrManager import *
fm = FunasrManager()
fm.start()
while True:
    time.sleep(0.2)

【视频演示】

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现_哔哩哔哩_bilibili 

【源码下载】

https://download.youkuaiyun.com/download/FL1623863129/89593855

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FL1623863129

你的打赏是我写文章最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值