python音频转文字

adfass

已于 2025-03-25 14:54:53 修改

阅读量79

点赞数 2

文章标签： python 音视频前端

于 2025-03-25 14:37:40 首次发布

本文链接：https://blog.youkuaiyun.com/adfass/article/details/146502865

版权

import wave
import json
from vosk import Model, KaldiRecognizer

# 音频文件路径，需替换成实际音频文件的路径
audio_file_path = 'output.wav'
# 模型路径
model_path = r"C:\Users\13940\voskmodels\vosk-model-cn-0.22"

# 打开音频文件
wf = wave.open(audio_file_path, "rb")

# 检查音频文件参数
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("音频文件必须是单声道、16位、无压缩的 WAV 格式。")
    exit(1)

# 加载 Vosk 模型
model = Model(model_path)
rec = KaldiRecognizer(model, wf.getframerate())

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        result = json.loads(rec.Result())
        print(result["text"])

# 获取最终识别结果
final_result = json.loads(rec.FinalResult())
print(final_result["text"])

# 关闭音频文件
wf.close()