python baidu语音转文字

原创已于 2022-04-22 22:09:00 修改 · 3.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python 语音转文字

于 2022-04-22 12:13:53 首次发布

本文介绍如何通过切分长录音文件，使用Baidu AI的语音识别API处理超过60秒限制的问题，实现音频文件的分段识别与整合。

from aip import AipSpeech
#baidu-aip
APP_ID = '      '
API_KEY = '          '
SECRET_KEY = '       '
# 百度AI库获取的参数

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 构造读取语音文件函数
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 识别本地文件  主函数
result = client.asr(get_file_content(r'C:\Users\1\PycharmProjects\pythonProject\record.pcm'), 'pcm', 16000, { 'lan': 'zh',})
#此处地址处必须要加r，使其成为绝对地址，要么容易字符转义出现错误
print(result)

#事实证明，baidu aip 录音转文字对录音长度有限制，要求每次只能转60秒的录音文件

#若想解决这个问题，初步的解决思路就是切片，将录音文件切成多个文件，分批导入

#让baidu aip 去识别它，然后分段整合起来就好。