获取代码
git clone https://github.com/crouchred/speaker-recognition-py3
git clone https://github.com/jameslyons/python_speech_features


代码目录结构:

安装speaker-recognition-py3依赖
sudo pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装python_speech_features
进入目录python_speech_features/,执行命令
python setup.py develop

之后就可以愉快的进行训练与测试了
训练:
进入speaker-recognition-py3目录,创建两个音频文件夹zilong and mary,分贝拷贝一些WAV文件进去。


执行以下命令训练:
./speaker-recognition.py -t enroll -i "./zilong ./mary" -m model.out

推理
对zilong目录中的音频文件进行推理
./speaker-recognition.py -t predict -i "./mary/*.wav" -m model.out
./speaker-recognition.py -t predict -i "./zilong/*.wav" -m model.out
对mary 目录中的文件进行推理

交叉验证
将cembalo-10.wav和apert2.wav分别移进对方目录,再次执行命令

可以看到,即便将文件混淆,程序仍然能够高概率正确识别声音的主人。

本文介绍了一种基于Python的语音识别系统搭建流程。通过克隆指定仓库并安装依赖包,可以实现语音样本的训练及识别功能。具体步骤包括:安装依赖、训练模型以及对不同说话人的音频文件进行推理。

1363

被折叠的 条评论
为什么被折叠?



