Wav2Vec-ONNX-FP16精度模型手把手教你手动实现CTC解码

本文链接：https://blog.youkuaiyun.com/FJCker/article/details/149266625

ASR 模型解码操作详细说明

概述

本项目实现了基于Data2Vec的自动语音识别(ASR)系统，采用CTC解码方式将音频信号转换为文本。系统支持端到端的语音识别流程，从音频输入到文本输出。
*注：目前只支持英文语音识别

系统架构概览

1. 整体架构图

音频文件 → 音频预处理 → 特征提取 → 神经网络推理 → CTC解码 → 文本输出
   ↓           ↓           ↓           ↓            ↓         ↓
 .wav文件   采样率转换   波形数据    Data2Vec     logits    最终文本

2. 技术栈

深度学习框架: ONNX Runtime (高性能推理)
音频处理: librosa, soundfile
数值计算: numpy
模型架构: Data2VecAudioForCTC
解码算法: CTC (Connectionist Temporal Classification)

详细流程说明

第一阶段：音频预处理

# 1. 读取音频文件
audio, sample_rate = sf.read("audio.wav")

# 2. 采样率转换（如果需要）
if sample_rate != 16000:
    audio = librosa.resample(audio, orig_sr=sample_rate, target_sr=16000)

# 3. 数据格式转换
input_data = np.expand_dims(audio, axis=0).astype(np.float16)

技术细节：

采样率标准化: 模型训练时使用16kHz，需要将输入音频转换到相同采样率
数据类型: 使用float16减少内存占用，提高推理速度
维度扩展: 添加batch维度 [1, seq_len] 满足模型输入要求

第二阶段：神经网络推理

# 4. 模型推理
logits = ort_session.run(output_names, input_feed={'input_values': input_data})

模型架构详解：

输入层: 接收音频波形数据 [batch_size, seq_len]
特征提取: 7层卷积网络提取声学特征
Transformer编码器: 12层attention机制学习上下文信息
输出层: 映射到词汇表大小的logits [seq_len, vocab_size]

第三阶段：CTC解码

# 5. CTC解码算法
def ctc_decode(logits, blank_id=0):
    # 5.1 获取每个时间步的最可能token
    predicted_ids = np.argmax(logits, axis=1)
    
    # 5.2 CTC解码规则
    decoded = []
    previous = None
    
    for token_id in predicted_ids:
        # 规则1: 跳过blank token (ID=0)
        # 规则2: 去除连续重复的token
        if token_id != blank_id and token_id != previous:
            decoded.append(token_id)
        previous = token_id
    
    return decoded

CTC解码原理：

时序建模: CTC允许输入输出序列长度不对齐
blank token: 用于分隔重复字符和表示无输出
贪心解码: 每个时间步选择概率最大的token
后处理: 去除重复和blank，得到最终序列

第四阶段：文本转换

# 6. Token ID转换为文本
def tokens_to_text(token_ids):
    tokens = []
    for token_id in token_ids:
        token = id_to_token[token_id]
        # 跳过特殊token
        if token not in ["<pad>", "<s>", "</s>", "<unk>"]:
            tokens.append(token)
    
    # 处理分隔符
    text = "".join(tokens).replace("|", " ")
    return text.strip()

模型详细配置

1. 网络架构参数

{
  "model_type": "data2vec-audio",
  "num_hidden_layers": 12,
  "num_attention_heads": 12,
  "hidden_size": 768,
  "intermediate_size": 3072,
  "vocab_size": 32,
  "num_feat_extract_layers": 7,
  "conv_dim": [512, 512, 512, 512, 512, 512, 512],
  "conv_kernel": [10, 3, 3, 3, 3, 2, 2],
  "conv_stride": [5, 2, 2, 2, 2, 2, 2]
}

2. 词汇表映射

vocab_mapping = {
    # 特殊token
    "<pad>": 0,    # 填充token
    "<s>": 1,      # 句子开始
    "</s>": 2,     # 句子结束
    "<unk>": 3,    # 未知token
    "|": 4,        # 单词分隔符
    
    # 英文字母
    "E": 5, "T": 6, "A": 7, "O": 8, "N": 9,
    "I": 10, "H": 11, "S": 12, "R": 13, "D": 14,
    "L": 15, "U": 16, "M": 17, "W": 18, "C": 19,
    "F": 20, "G": 21, "Y": 22, "P": 23, "B": 24,
    "V": 25, "K": 26, "'": 27, "X": 28, "J": 29,
    "Q": 30, "Z": 31
}

安装和环境配置

1. 系统要求

Python 3.8+
内存: 4GB+
硬盘: 1GB+ (模型文件约180MB)
支持的操作系统: Linux, Windows, macOS

2. 依赖安装

# 安装依赖包
pip install -r requirements.txt

# 或者逐个安装
pip install onnxruntime==1.22.0
pip install numpy==2.2.6
pip install soundfile==0.13.1
pip install librosa==0.11.0
pip install transformers==4.53.1

3. 项目结构

Wav2Vec/
├── model_classes/
│   └── ort_loader.py          # 模型加载和推理类
├── models/
│   └── data2vec_onnx/         # ONNX模型文件
│       ├── model.onnx         # 主模型文件
│       ├── config.json        # 模型配置
│       ├── vocab.json         # 词汇表
│       └── tokenizer_config.json
├── datasets/
│   └── text2audio.wav        # 测试音频
├── run.py                     # 主程序
└── requirements.txt           # 依赖列表

使用方法

1. 快速开始

# 运行示例程序
python run.py

2. 自定义使用

from model_classes.ort_loader import ORTLoader
import numpy as np
import soundfile as sf

# 步骤1: 初始化模型
model_path = "./models/data2vec_onnx/model.onnx"
ort_loader = ORTLoader(model_path, device="cpu")  # 或 "cuda:0"

# 步骤2: 读取音频文件
audio, sample_rate = sf.read("your_audio.wav")
print(f"音频长度: {len(audio)/sample_rate:.2f}秒")

# 步骤3: 准备输入数据
input_data = np.expand_dims(audio, axis=0).astype(np.float16)

# 步骤4: 执行推理
result = ort_loader.ExecInfer(input_data, sample_rate, 16000)

# 步骤5: 获取结果
print(f"识别文本: '{result['text']}'")
print(f"置信度分析: {len(result['decoded_tokens'])} 个token")

3. 批量处理

import os
import glob

# 批量处理音频文件
audio_dir = "./audio_files/"
results = []

for audio_file in glob.glob(os.path.join(audio_dir, "*.wav")):
    audio, sr = sf.read(audio_file)
    input_data = np.expand_dims(audio, axis=0).astype(np.float16)
    result = ort_loader.ExecInfer(input_data, sr, 16000)
    
    results.append({
        'file': audio_file,
        'text': result['text'],
        'duration': len(audio) / sr
    })

# 保存结果
for r in results:
    print(f"{r['file']}: {r['text']}")

输出格式和结果解析

1. 标准输出格式

result = {
    'logits': numpy.ndarray,        # 原始概率分布 [seq_len, vocab_size]
    'decoded_tokens': [int],        # 解码后的token ID列表
    'text': str                     # 最终识别的文本
}

2. 详细分析输出

# 运行结果示例
{
    'logits': array([[0.1, 0.2, ...], [0.3, 0.4, ...], ...]),  # 每个时间步的概率
    'decoded_tokens': [11, 5, 15, 15, 8, 4, 18, 8, 13, 15, 14], # H-E-L-L-O-|-W-O-R-L-D
    'text': 'HELLO WORLD'           # 最终文本
}

3. 性能指标

推理速度: 约100-200ms (CPU), 50-100ms (GPU)
内存占用: 约500MB
准确率: 在LibriSpeech测试集上约85-90%

高级功能

1. 置信度分析

def analyze_confidence(logits):
    """分析每个时间步的置信度"""
    max_probs = np.max(logits, axis=1)
    avg_confidence = np.mean(max_probs)
    min_confidence = np.min(max_probs)
    
    return {
        'average_confidence': avg_confidence,
        'minimum_confidence': min_confidence,
        'confidence_variance': np.var(max_probs)
    }

2. 时间对齐

def get_word_timestamps(decoded_tokens, audio_length, sample_rate):
    """获取单词级别的时间戳"""
    frames_per_token = audio_length / len(decoded_tokens)
    timestamps = []
    
    for i, token_id in enumerate(decoded_tokens):
        start_time = i * frames_per_token / sample_rate
        end_time = (i + 1) * frames_per_token / sample_rate
        timestamps.append((start_time, end_time, token_id))
    
    return timestamps

3. 多候选解码

def beam_search_decode(logits, beam_width=5):
    """Beam search解码获取多个候选结果"""
    # 实现beam search算法
    # 返回top-k个最可能的解码结果
    pass

性能优化建议

1. 硬件优化

GPU加速: 使用CUDA版本的ONNX Runtime
批处理: 同时处理多个音频文件
内存管理: 及时释放不必要的变量

2. 软件优化

# 使用GPU推理
ort_loader = ORTLoader(model_path, device="cuda:0")

# 批处理推理
batch_audio = np.stack([audio1, audio2, audio3])  # [batch_size, seq_len]
batch_results = ort_loader.ExecInfer(batch_audio, sr, 16000)

3. 预处理优化

# 音频预处理管道
def preprocess_audio(audio_path, target_sr=16000):
    # 使用librosa的高效加载
    audio, sr = librosa.load(audio_path, sr=target_sr)
    
    # 音频标准化
    audio = audio / np.max(np.abs(audio))
    
    # 静音检测和移除
    audio, _ = librosa.effects.trim(audio, top_db=20)
    
    return audio

常见问题和解决方案

1. 模型加载问题

问题: ModuleNotFoundError: No module named 'onnxruntime'
解决:

pip install onnxruntime
# 或者GPU版本
pip install onnxruntime-gpu

2. 音频格式问题

问题: 不支持的音频格式
解决:

# 使用ffmpeg转换
import subprocess
subprocess.run(['ffmpeg', '-i', 'input.mp3', 'output.wav'])

3. 内存不足

问题: 长音频文件导致内存溢出
解决:

# 分段处理长音频
def process_long_audio(audio, chunk_size=16000*30):  # 30秒块
    results = []
    for i in range(0, len(audio), chunk_size):
        chunk = audio[i:i+chunk_size]
        result = ort_loader.ExecInfer(chunk, sr, 16000)
        results.append(result['text'])
    return ' '.join(results)

4. 识别准确率低

问题: 识别结果不准确
解决:

检查音频质量（采样率、噪声）
确保音频是英文语音
尝试音频增强预处理

5. 推理速度慢

问题: 推理时间过长
解决:

使用GPU加速
减少音频长度
使用量化模型

测试和验证

1. 单元测试

import unittest

class TestASRSystem(unittest.TestCase):
    def setUp(self):
        self.ort_loader = ORTLoader("./models/data2vec_onnx/model.onnx")
    
    def test_model_loading(self):
        self.assertIsNotNone(self.ort_loader.sesssion)
    
    def test_inference(self):
        # 生成测试音频
        test_audio = np.random.randn(16000).astype(np.float16)
        input_data = np.expand_dims(test_audio, axis=0)
        result = self.ort_loader.ExecInfer(input_data, 16000, 16000)
        
        self.assertIn('text', result)
        self.assertIn('decoded_tokens', result)
        self.assertIn('logits', result)

2. 基准测试

import time

def benchmark_inference(ort_loader, audio_path, num_runs=10):
    """基准测试推理性能"""
    audio, sr = sf.read(audio_path)
    input_data = np.expand_dims(audio, axis=0).astype(np.float16)
    
    times = []
    for _ in range(num_runs):
        start_time = time.time()
        result = ort_loader.ExecInfer(input_data, sr, 16000)
        end_time = time.time()
        times.append(end_time - start_time)
    
    return {
        'average_time': np.mean(times),
        'std_time': np.std(times),
        'min_time': np.min(times),
        'max_time': np.max(times)
    }

扩展功能

1. 实时语音识别

import pyaudio
import threading
import queue

class RealTimeASR:
    def __init__(self, model_path):
        self.ort_loader = ORTLoader(model_path)
        self.audio_queue = queue.Queue()
        
    def audio_callback(self, in_data, frame_count, time_info, status):
        """音频回调函数"""
        audio_data = np.frombuffer(in_data, dtype=np.float32)
        self.audio_queue.put(audio_data)
        return (None, pyaudio.paContinue)
    
    def start_recognition(self):
        """开始实时识别"""
        # 配置音频流
        p = pyaudio.PyAudio()
        stream = p.open(format=pyaudio.paFloat32,
                       channels=1,
                       rate=16000,
                       input=True,
                       stream_callback=self.audio_callback)
        
        stream.start_stream()
        # 处理音频队列中的数据
        while stream.is_active():
            if not self.audio_queue.empty():
                audio_chunk = self.audio_queue.get()
                # 处理音频块
                self.process_audio_chunk(audio_chunk)

2. 语音活动检测(VAD)

def voice_activity_detection(audio, sr, frame_length=2048):
    """简单的语音活动检测"""
    # 计算短时能量
    energy = []
    for i in range(0, len(audio), frame_length):
        frame = audio[i:i+frame_length]
        energy.append(np.sum(frame ** 2))
    
    # 设置阈值
    threshold = np.mean(energy) * 0.1
    
    # 检测语音段
    speech_segments = []
    in_speech = False
    start_frame = 0
    
    for i, e in enumerate(energy):
        if e > threshold and not in_speech:
            in_speech = True
            start_frame = i
        elif e <= threshold and in_speech:
            in_speech = False
            speech_segments.append((start_frame * frame_length, i * frame_length))
    
    return speech_segments