python实现语音转文字(百度接口)

import json
import base64
import os
import requests


RATE = "16000"
FORMAT = "wav"
CUID="wate_play"
DEV_PID="1536"

def get_token():
    server = "https://openapi.baidu.com/oauth/2.0/token?"
    grant_type = "client_credentials"
    #API Key
    client_id = "vyYLov63W6x33nIPvwVdLLsX"
    #Secret Key
    client_secret = "EzgQoFF9xp62SeGCXCBaD8FjWNxvl9kZ"

    #拼url
    url ="%sgrant_type=%s&client_id=%s&client_secret=%s"%(server,grant_type,client_id,client_secret)
    #获取token
    res = requests.post(url)
    token = json.loads(res.text)["access_token"]

    return token

def get_word(token):
    wavPath = './static/yuyin/record.wav'
    with open(wavPath, "rb") as f:
        speech = base64.b64encode(f.read()).decode('utf8')
    size = os.path.getsize(wavPath)
    headers = { 'Content-Type' : 'application/json'}
    url = "https://vop.baidu.com/server_api"
    data={
            "format":FORMAT,
            "rate":RATE,
            "dev_pid":DEV_PID,
            "speech":speech,
            "cuid":CUID,
            "len":size,
            "channel":1,
            "token":token,
        }
    try:
        req = requests.post(url,json.dumps(data),headers)
        result = json.loads(req.text)
        ret=result["result"][0]
    except :
        ret = None
    return ret[:-1]

wavPath 为wav文件路径

Secret key 和Api key为百度接口获取的参数

### 使用Python实现语音文字功能 为了使用Python实现语音文字(Speech-to-Text, STT),通常依赖于特定的库和API来处理音频数据并将其换成文本。常见的做法是利用Google Speech Recognition API或其他类似的在线服务,这些服务提供了高精度的识别能力。 #### 安装必要的库和支持工具 首先需要安装一些基础的支持包,比如`pyaudio`用于录音以及`speechrecognition`作为核心的STT引擎接口[^1]: ```bash pip install pyaudio speechrecognition ``` 如果希望提高准确性或者支持更多的语言选项,则可能还需要额外配置其他资源文件或订阅更专业的云服务平台如百度AI平台提供的语音识别API等[^2]。 #### 编写简单的语音文字程序 下面是一段基于`speech_recognition`库的基础示例代码,展示了如何捕捉麦克风输入并将之化为可读的文字输出: ```python import speech_recognition as sr def recognize_speech_from_mic(): recognizer = sr.Recognizer() with sr.Microphone() as source: print("请说话...") audio_data = recognizer.listen(source) try: text = recognizer.recognize_google(audio_data, language="zh-CN") # 可选参数language指定目标语言为中国普通话 print(f"你说的是: {text}") return text except Exception as e: print("抱歉,未能理解您的发言.") return None if __name__ == "__main__": result = recognize_speech_from_mic() ``` 这段代码通过调用Google Web Speech API来进行实际的声音到文本的化工作;当然也可以替换为其他提供商的服务端点以适应不同的需求场景。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值