声纹识别demo环境的搭建

语音识别训练与测试

最新推荐文章于 2025-10-29 08:00:00 发布

原创最新推荐文章于 2025-10-29 08:00:00 发布 · 5k 阅读

CC 4.0 BY-SA版权

文章标签：

155 篇文章

订阅专栏

154 篇文章

订阅专栏

101 篇文章

订阅专栏

本文介绍了一种基于Python的语音识别系统搭建流程。通过克隆指定仓库并安装依赖包，可以实现语音样本的训练及识别功能。具体步骤包括：安装依赖、训练模型以及对不同说话人的音频文件进行推理。

部署运行你感兴趣的模型镜像

git clone https://github.com/crouchred/speaker-recognition-py3
git clone https://github.com/jameslyons/python_speech_features

代码目录结构：

sudo pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

进入目录python_speech_features/，执行命令

python setup.py develop

之后就可以愉快的进行训练与测试了

进入speaker-recognition-py3目录，创建两个音频文件夹zilong and mary,分贝拷贝一些WAV文件进去。

执行以下命令训练：

./speaker-recognition.py -t enroll -i "./zilong ./mary" -m model.out

对zilong目录中的音频文件进行推理

./speaker-recognition.py -t predict -i "./mary/*.wav" -m model.out
./speaker-recognition.py -t predict -i "./zilong/*.wav" -m model.out

对mary 目录中的文件进行推理

将cembalo-10.wav和apert2.wav分别移进对方目录,再次执行命令

可以看到，即便将文件混淆，程序仍然能够高概率正确识别声音的主人。

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本