试图调百度 谷歌 科大讯飞的语音识别API进行语音转文字
1.谷歌(谷歌好像需要梯子)
需要下载ffmpeg.exe和ffprobe.exe
下载连接https://ffmpeg.zeranoe.com/builds/
MP3的音频文件不能直接用谷歌的语音识别去识别,可以看下这篇文章(https://blog.youkuaiyun.com/dQCFKyQDXYm3F8rB0/article/details/79832700(删掉号)这里面介绍了有关音频的一些理论知识,什么频率赫兹啥的),包括谷歌语音识别接口的使用;所#以,在识别语音之前,我们要先对保存到本地的语音消息转化格式,这里用到了pydub的#ffmpeg和ffprobe(https://ffmpeg.zeranoe.com/builds/下载完解压,ffmpeg.exe和#ffprobe.exe复制到你想放的地方,然后再代码中引用一下就可以了,windows平台可以,#不止linux是否可以)
将mp3转化成wav
from pydub import AudioSegment
import os
from os import path
# os.getcwd() 是获取当前路径,这里可以写绝对路径
AudioSegment.ffmpeg = os.getcwd()+'\\ffmpeg.exe'
AudioSegment.ffprobe = os.getcwd()+'\\ffprobe.exe'
def dealMp3(filePath,fileName):
sound = AudioSegment.from_mp3(filePath)
#获取原始pcm数据
data=sound._data
sound_wav = AudioSegment(
#指定原始pcm文件
# raw audio data (bytes)
data = data,
#指定采样深度,可选值1,2,3,4
# 2 byte (16 bit) samples
sample_width = 2,
#指定采样频率
# 44.1 kHz frame rate
# 16kHz frame rate
frame_rate = 16000