音频转文字

原创已于 2024-06-20 17:49:35 修改 · 812 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#实时音视频 #语音识别 #python

于 2024-06-20 17:49:13 首次发布

部署运行你感兴趣的模型镜像

音频转文字（也称为语音识别）是自然语言处理（NLP）领域的一个常见问题。
今天这篇文章，我们将实现一个有关音频转文字的程序，并采用一些开源库来完成实操。
例如Python中的SpeechRecognition库。
这个库可以用来转录音频文件，而且它支持多种语音识别引擎，如Google Speech Recognition、Microsoft Azure Speech、IBM Speech to Text等。
下面是一个使用SpeechRecognition库的基本示例
首先，请确保你已经安装了SpeechRecognition库和PyAudio。如果没有，可以使用pip来安装：

pip install SpeechRecognition pyaudio

一、使用Python代码来转录音频文件：

import speech_recognition as sr

# 创建一个识别器实例
r = sr.Recognizer()

# 加载音频文件
with sr.AudioFile('path_to_your_audio_file.wav') as source:
    audio_data = r.record(source)
    # 使用Google Speech Recognition
    text = r.recognize_google(audio_data)
    print(text)

请注意，你需要将'path_to_your_audio_file.wav'替换为你的音频文件路径。

这个示例使用了Google的语音识别服务。recognize_google()方法是一个阻塞方法，它会等待识别完成并返回识别结果。

二、利用Python代码来实时转录音频。
请确保你的系统已经安装了合适的音频输入库，PyAudio就需要这个来访问麦克风。
注：在某些系统上，可能需要手动安装PortAudio。

import speech_recognition as sr

# 创建一个识别器实例
r = sr.Recognizer()

# 使用麦克风作为音频源
with sr.Microphone() as source:
    print("正在监听...")
    # 调整噪声环境
    r.adjust_for_ambient_noise(source)
    while True:
        try:
            # 捕获音频数据
            audio_data = r.listen(source)
            print("识别中...")
            # 使用Google Speech Recognition转换为文字
            text = r.recognize_google(audio_data, language='en-US')
            print(f"你说的是：{text}")
        except sr.UnknownValueError:
            print("无法识别语音")
        except sr.RequestError as e:
            print(f"请求错误；{e}")

在这段代码中：

我们首先导入了speech_recognition库，并创建了一个Recognizer实例。
使用with sr.Microphone() as source:来指定麦克风作为音频的来源。
r.adjust_for_ambient_noise(source)用于调整识别器以适应环境噪声。
在一个无限循环中，使用r.listen(source)来捕获音频数据。
然后，利用r.recognize_google(audio_data)将捕获的音频数据转换为文字。
若转换成功，打印出识别到的文字。若转换失败，捕获UnknownValueError和RequestError异常，打印出相应的错误信息。

你可以通过运行这个脚本来开始实时语音识别。
当你说话时，程序会打印出你所说的内容。若想要停止程序，按下Ctrl+C来终止脚本。

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本