项目说明:
在windows平台下,使用speech_recognition记录音频,并转换为16k的wav, 之后利用ffmpeg将wav转化为pcm文件,上传到百度语音端,返回语音信息,并利用pyttsx3添加了简单的交互功能。
需求模块:
speech_recognition, pyttsx3, pyaudio, wave, aip, ffmpeg
模块安装:
- speech_recognition: https://pypi.org/project/SpeechRecognition/
- pyttsx3: https://blog.youkuaiyun.com/dss_dssssd/article/details/82693742
- pyaudio: https://pypi.org/project/PyAudio/
- aip:https://ai.baidu.com/docs#/ASR-Online-Python-SDK/top
- ffmpeg (Windows下) 注意是系统的环境变量,不是个人的path
https://blog.youkuaiyun.com/zhuiqiuk/article/details/72834385
代码如下
import speech_recognition as sr
import pyttsx3
import pyaudio
import wave
from aip import AipSpeech
import os
# 读取wav文件并播放
def read_wav():
CHUNK = 1024
# 测试语音
wf = wave.open('./2.wav', 'rb')
# read data
data = wf.readframes(CHUNK)
p = pyaudio.PyAudio()
FORMAT = p.get_format_from_width(wf.getsampwidth())
CHANNELS = wf.getnchannels()
RATE = wf.getframerate

该项目在Windows环境下使用speech_recognition录制音频并转换为16k WAV,通过ffmpeg转为PCM格式,然后利用百度语音SDK进行识别。依赖包括speech_recognition, pyttsx3, pyaudio, wave和ffmpeg。注意pyttsx3初始化不能在多线程中进行,若遇到timeout错误,可能需要更换API的id和key。项目源码已开源。"
136639337,22182419,Java实现模拟目录管理功能,"['华为OD', '数据结构', '算法', '开发语言', 'Java']
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



