语音转文字API调用(百度 谷歌 科大讯飞)

这篇博客介绍了如何调用百度、谷歌和科大讯飞的语音识别API进行语音转文字。对于谷歌,由于网络限制,需要借助ffmpeg转换音频格式。百度API限制为60秒内音频,而科大讯飞的部分细节被遗忘。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

试图调百度 谷歌 科大讯飞的语音识别API进行语音转文字

1.谷歌(谷歌好像需要梯子)

需要下载ffmpeg.exe和ffprobe.exe
下载连接https://ffmpeg.zeranoe.com/builds/
MP3的音频文件不能直接用谷歌的语音识别去识别,可以看下这篇文章(https://blog.youkuaiyun.com/dQCFKyQDXYm3F8rB0/article/details/79832700(删掉号)这里面介绍了有关音频的一些理论知识,什么频率赫兹啥的),包括谷歌语音识别接口的使用;所#以,在识别语音之前,我们要先对保存到本地的语音消息转化格式,这里用到了pydub的#ffmpeg和ffprobe(https://ffmpeg.zeranoe.com/builds/下载完解压,ffmpeg.exe和#ffprobe.exe复制到你想放的地方,然后再代码中引用一下就可以了,windows平台可以,#不止linux是否可以)

将mp3转化成wav

from pydub import AudioSegment
import os
from os import path
 
# os.getcwd() 是获取当前路径,这里可以写绝对路径
AudioSegment.ffmpeg = os.getcwd()+'\\ffmpeg.exe'
AudioSegment.ffprobe = os.getcwd()+'\\ffprobe.exe'
 
def dealMp3(filePath,fileName):
    sound = AudioSegment.from_mp3(filePath)
    #获取原始pcm数据
    data=sound._data
    sound_wav = AudioSegment(
        #指定原始pcm文件
        # raw audio data (bytes)
        data = data,
        #指定采样深度,可选值1,2,3,4
        # 2 byte (16 bit) samples
        sample_width = 2,
        #指定采样频率
        # 44.1 kHz frame rate
        # 16kHz frame rate
        frame_rate = 16000
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值