语音转文字API调用（百度谷歌科大讯飞）_科大讯飞语音转写api 太零碎-优快云博客

本文链接：https://blog.youkuaiyun.com/you_jinpeng/article/details/102810613

这篇博客介绍了如何调用百度、谷歌和科大讯飞的语音识别API进行语音转文字。对于谷歌，由于网络限制，需要借助ffmpeg转换音频格式。百度API限制为60秒内音频，而科大讯飞的部分细节被遗忘。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

试图调百度谷歌科大讯飞的语音识别API进行语音转文字

1.谷歌（谷歌好像需要梯子）

需要下载ffmpeg.exe和ffprobe.exe
下载连接https://ffmpeg.zeranoe.com/builds/
MP3的音频文件不能直接用谷歌的语音识别去识别，可以看下这篇文章（https://blog.youkuaiyun.com/dQCFKyQDXYm3F8rB0/article/details/79832700(删掉号)这里面介绍了有关音频的一些理论知识，什么频率赫兹啥的），包括谷歌语音识别接口的使用；所#以，在识别语音之前，我们要先对保存到本地的语音消息转化格式，这里用到了pydub的#ffmpeg和ffprobe（https://ffmpeg.zeranoe.com/builds/下载完解压，ffmpeg.exe和#ffprobe.exe复制到你想放的地方，然后再代码中引用一下就可以了，windows平台可以，#不止linux是否可以）

将mp3转化成wav

from pydub import AudioSegment
import os
from os import path
 
# os.getcwd() 是获取当前路径，这里可以写绝对路径
AudioSegment.ffmpeg = os.getcwd()+'\\ffmpeg.exe'
AudioSegment.ffprobe = os.getcwd()+'\\ffprobe.exe'
 
def dealMp3(filePath,fileName):
    sound = AudioSegment.from_mp3(filePath)
    #获取原始pcm数据
    data=sound._data
    sound_wav = AudioSegment(
        #指定原始pcm文件
        # raw audio data (bytes)
        data = data,
        #指定采样深度，可选值1,2,3,4
        # 2 byte (16 bit) samples
        sample_width = 2,
        #指定采样频率
        # 44.1 kHz frame rate
        # 16kHz frame rate
        frame_rate = 16000