如何使用我们的开源wav2vec2维度情感识别模型

最新推荐文章于 2025-05-18 14:41:15 发布

吕奕昶

最新推荐文章于 2025-05-18 14:41:15 发布

阅读量730

点赞数 21

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00178/article/details/147008816

如何使用我们的开源wav2vec2维度情感识别模型

w2v2-how-to How to use our public wav2vec2 dimensional emotion model 项目地址: https://gitcode.com/gh_mirrors/w2/w2v2-how-to

1. 项目介绍

本项目是基于wav2vec 2.0的开源维度情感识别模型，通过在MSP-Podcast数据集上微调预训练的wav2vec2-large-robust模型创建而成。该模型从原始的24层Transformer减少到12层，以便更好地适应情感识别任务。本项目提供了模型的ONNX导出版本，原始的Torch模型可在Hugging Face上找到。模型的详细说明和实现细节可以在相关的论文中找到。

2. 项目快速启动

首先，确保您已创建并激活Python虚拟环境。以下是如何安装所需的audonnx库并加载模型进行测试的代码：

import audeer
import audonnx
import numpy as np

# 模型下载链接
url = 'https://zenodo.org/record/6221127/files/w2v2-L-robust-12.6bc4a7fd-1.1.0.zip'

# 创建缓存和模型目录
cache_root = audeer.mkdir('cache')
model_root = audeer.mkdir('model')

# 下载并解压模型
archive_path = audeer.download_url(url, cache_root, verbose=True)
audeer.extract_archive(archive_path, model_root)

# 加载模型
model = audonnx.load(model_root)

# 创建随机信号进行测试
sampling_rate = 16000
signal = np.random.normal(size=sampling_rate).astype(np.float32)

# 使用模型处理信号
result = model(signal, sampling_rate)
print(result)

上述代码将输出模型的隐藏状态和logits，其中logits的顺序为：唤醒度(arousal)、支配度(dominance)、效价(valence)。