Python Vosk SoundDevice实现实时方向词汇语音识别

守正创新哦

已于 2024-12-27 11:23:23 修改

阅读量1.4k

点赞数 8

文章标签： xcode macos ide

于 2024-12-27 11:07:25 首次发布

本文链接：https://blog.youkuaiyun.com/wszlovemyh/article/details/144762621

版权

在智能家居、游戏控制、机器人导航等领域，语音控制已成为提升用户体验的重要手段。本文将介绍如何利用Vosk语音识别库和SoundDevice音频处理库，实现一个实时识别方向词汇（如“up”、“down”、“left”、“right”）的语音识别系统。通过项目介绍、所用技术链接、原理解析、代码详细讲解等，帮助读者全面了解该项目的实现过程。

一、项目介绍

本项目旨在通过麦克风实时捕捉用户的语音输入，利用Vosk语音识别模型识别其中的方向词汇（“up”、“down”、“left”、“right”）。当系统识别到这些词汇时，会即时输出相应的方向指令。这一功能可以应用于以下场景：

智能家居控制： 通过语音指令控制家居设备的方向，如调整灯光、窗帘等。
游戏控制： 使用语音指令控制游戏角色的移动方向。
机器人导航： 通过语音指令引导机器人移动方向。

二、所用技术与链接

Vosk: 一个离线语音识别工具包，支持多种语言，适用于实时语音识别应用。
SoundDevice: 一个用于访问音频设备的Python库，支持录音和播放。
NumPy: 一个支持大规模多维数组与矩阵运算的Python库。
Vosk Models: 提供多种预训练的语音识别模型，可根据需求选择合适的模型。

三、原理解析

1.Vosk语音识别

Vosk是一个轻量级的离线语音识别工具包，支持多种语言和平台。它基于Kaldi语音识别工具包，具有高效、低资源消耗的特点，适用于实时语音识别任务。Vosk通过加载预训练的模型，能够将音频流转化为文本结果。

2.SoundDevice音频处理

SoundDevice库提供了对音频设备的访问能力，允许开发者录制和播放音频流。通过设置回调函数，SoundDevice可以实时处理音频输入，将捕捉到的音频数据传递给Vosk进行识别。

3.方向词汇识别流程

加载Vosk模型： 指定Vosk模型的路径，加载语音识别模型。
定义语法： 限定识别的词汇范围，仅识别“up”、“down”、“left”、“right”四个方向词汇。
初始化识别器： 使用Vosk的KaldiRecognizer，结合定义的语法，初始化语音识别器。
录音与识别： 通过SoundDevice捕捉音频输入，将音频数据传递给识别器进行实时识别。
输出结果： 当识别器检测到指定的方向词汇时，输出相应的指令。

四、代码讲解

以下是项目的主要代码部分及其详细解释：

1.导入必要的库

import json
import queue
import sounddevice as sd
from vosk import Model, KaldiRecognizer

json: 用于处理JSON数据格式。
queue: 提供线程安全的队列，用于在回调函数和主线程之间传递音频数据。
sounddevice: 用于访问和录制音频设备的数据。
vosk: Vosk语音识别库，包含Model和KaldiRecognizer类。

2.定义方向词汇识别函数

def recognize_directions(model_path: str, device: int = None, samplerate: int = 16000):
    """
    实时识别语音中的方向词汇（"up"、"down"、"left"、"right"），并循环多次返回识别结果。
    
    参数:
    - model_path: Vosk 模型的路径。
    - device: 音频设备的索引。如果为 None，则使用默认设备。
    - samplerate: 采样率，默认为16000 Hz。
    
    生成:
    - 识别到的方向词汇，依次为 "up"、"down"、"left" 或 "right"。
    """
    # 加载 Vosk 模型
    model = Model(model_path)

    # 定义仅包含四个词汇的语法
    grammar = ["up", "down", "left", "right"]
    grammar_json = json.dumps(grammar)

    # 初始化识别器，使用指定的语法限制识别范围
    recognizer = KaldiRecognizer(model, samplerate, grammar_json)

    # 创建一个队列用于音频数据传输
    q = queue.Queue()

    def callback(indata, frames, time, status):
        """音频输入的回调函数，将音频数据放入队列"""
        if status:
            print(f"状态信息: {status}")
        q.put(bytes(indata))

    # 打开音频输入流
    with sd.RawInputStream(samplerate=samplerate, blocksize=8000, dtype='int16',
                           channels=1, callback=callback):
        print("开始监听，请说出 'up'、'down'、'left' 或 'right' 其中一个方向词汇。按 Ctrl+C 停止。")

        try:
            while True:
                data = q.get()
                if recognizer.AcceptWaveform(data):
                    result = recognizer.Result()
                    result_dict = json.loads(result)
                    text = result_dict.get("text", "").strip().lower()
                    if text in grammar:
                        print(f"识别结果: {text}")
                        yield text
                else:
                    # 可选: 处理部分结果
                    partial_result = recognizer.PartialResult()
                    # 你可以选择打印部分结果用于调试
                    # print(partial_result)
        except KeyboardInterrupt:
            print("\n识别已停止。")
        except Exception as e:
            print(f"发生错误: {e}")

加载Vosk模型： 使用指定的model_path加载Vosk预训练模型。
定义语法： 通过grammar列表限定识别的词汇范围，仅包含“up”、“down”、“left”、“right”四个方向词汇。将其转换为JSON格式字符串，传递给识别器。
初始化识别器： 创建KaldiRecognizer实例，结合加载的模型和定义的语法，限制识别范围，提高识别准确性。
音频数据队列： 创建一个线程安全的队列q，用于在回调函数和主循环之间传递音频数据。
回调函数： callback函数在音频流中捕捉到音频数据时被调用，将音频数据转换为字节流并放入队列。如果有状态信息（如错误），将其打印出来。
音频输入流： 使用RawInputStream打开音频输入流，设置采样率、块大小、数据类型和回调函数。
主循环： 持续从队列中获取音频数据，传递给识别器进行处理。如果识别器接受到完整的语音波形并成功识别出词汇，则将识别结果转换为文本并生成相应的方向指令。用户可以通过按下Ctrl+C终止识别过程。

3.示例用法

# 示例用法
if __name__ == "__main__":
    model_path = "path/to/vosk-model-small-en-us-0.15"  # 替换为你的模型路径
    try:
        for direction in recognize_directions(model_path):
            # 在这里你可以处理每一个识别到的方向词汇
            print(f"检测到方向: {direction}")
    except KeyboardInterrupt:
        print("\n程序已终止。")
    except Exception as e:
        print(f"发生错误: {e}")

指定模型路径： 将model_path替换为你下载并解压的Vosk模型的实际路径。
启动识别： 调用recognize_directions函数，开始实时识别方向词汇。当识别到指定词汇时，打印检测到的方向。

五、总代码

以下是整合后的完整代码，确保所有功能模块协同工作：

import json
import queue
import sounddevice as sd
from vosk import Model, KaldiRecognizer

def recognize_directions(model_path: str, device: int = None, samplerate: int = 16000):
    """
    实时识别语音中的方向词汇（"up"、"down"、"left"、"right"），并循环多次返回识别结果。
    
    参数:
    - model_path: Vosk 模型的路径。
    - device: 音频设备的索引。如果为 None，则使用默认设备。
    - samplerate: 采样率，默认为16000 Hz。
    
    生成:
    - 识别到的方向词汇，依次为 "up"、"down"、"left" 或 "right"。
    """
    # 加载 Vosk 模型
    model = Model(model_path)

    # 定义仅包含四个词汇的语法
    grammar = ["up", "down", "left", "right"]
    grammar_json = json.dumps(grammar)

    # 初始化识别器，使用指定的语法限制识别范围
    recognizer = KaldiRecognizer(model, samplerate, grammar_json)

    # 创建一个队列用于音频数据传输
    q = queue.Queue()

    def callback(indata, frames, time, status):
        """音频输入的回调函数，将音频数据放入队列"""
        if status:
            print(f"状态信息: {status}")
        q.put(bytes(indata))

    # 打开音频输入流
    with sd.RawInputStream(samplerate=samplerate, blocksize=8000, dtype='int16',
                           channels=1, callback=callback):
        print("开始监听，请说出 'up'、'down'、'left' 或 'right' 其中一个方向词汇。按 Ctrl+C 停止。")

        try:
            while True:
                data = q.get()
                if recognizer.AcceptWaveform(data):
                    result = recognizer.Result()
                    result_dict = json.loads(result)
                    text = result_dict.get("text", "").strip().lower()
                    if text in grammar:
                        print(f"识别结果: {text}")
                        yield text
                else:
                    # 可选: 处理部分结果
                    partial_result = recognizer.PartialResult()
                    # 你可以选择打印部分结果用于调试
                    # print(partial_result)
        except KeyboardInterrupt:
            print("\n识别已停止。")
        except Exception as e:
            print(f"发生错误: {e}")

# 示例用法
if __name__ == "__main__":
    model_path = "path/to/vosk-model-small-en-us-0.15"  # 替换为你的模型路径
    try:
        for direction in recognize_directions(model_path):
            # 在这里你可以处理每一个识别到的方向词汇
            print(f"检测到方向: {direction}")
    except KeyboardInterrupt:
        print("\n程序已终止。")
    except Exception as e:
        print(f"发生错误: {e}")

六、项目拓展

1. 增加更多识别词汇

除了方向词汇，可以扩展识别更多的命令词汇，如“start”、“stop”、“pause”等，增强系统的控制能力。修改grammar列表，添加新的词汇，并在主循环中相应处理这些词汇。

# 定义扩展的语法
grammar = ["up", "down", "left", "right", "start", "stop", "pause"]

2. 多语言支持

Vosk支持多种语言的语音识别。通过下载对应语言的模型，调整grammar列表中的词汇为目标语言的方向词汇，实现多语言的方向指令识别。

3. 图形用户界面（GUI）

为识别系统添加一个图形用户界面，实时显示识别结果和系统状态。可以使用Tkinter、PyQt等Python GUI库，提升用户体验。

import tkinter as tk

# 示例: 在GUI中显示识别结果
root = tk.Tk()
root.title("方向词汇识别")
label = tk.Label(root, text="请说出方向词汇...", font=("Helvetica", 16))
label.pack(pady=20)

def update_label(direction):
    label.config(text=f"检测到方向: {direction}")

# 在主循环中调用update_label(direction)

4. 与硬件设备集成

将语音识别系统与硬件设备（如Arduino、Raspberry Pi）集成，实现语音控制物理设备的移动方向。例如，语音识别“up”指令后，控制机器人前进。

5. 语音反馈

添加语音反馈功能，当识别到方向词汇时，系统通过扬声器播放相应的确认音或语音，增强互动性。

import pyttsx3

engine = pyttsx3.init()

def speak(text):
    engine.say(text)
    engine.runAndWait()

# 在识别到方向词汇后调用speak函数
speak(f"检测到方向: {direction}")

七、结语

通过本文的介绍与代码讲解，读者可以了解到如何利用Vosk和SoundDevice实现一个基础的实时方向词汇语音识别系统。该系统不仅具备实时性和高准确性，还具有较强的扩展性，适用于多种应用场景。欢迎读者在此基础上进行更多的探索与创新，如增加更多识别词汇、支持多语言、与硬件设备集成等，以满足不同的实际需求。

在实际应用中，确保选择合适的Vosk模型，并根据环境噪音水平调整麦克风设备和采样率，以获得最佳的识别效果。随着语音识别技术的不断发展，基于Vosk的语音控制系统将在智能化应用中发挥越来越重要的作用。