基于x-vectors的说话人识别与分割技术详解
1. 说话人识别概述
说话人识别旨在回答“谁在说话?”这一问题,通常分为说话人辨识和说话人验证两个任务:
- 说话人辨识 :通过将说话人的语音与一组封闭的模板进行比较来识别说话人。
- 说话人验证 :通过比较语音属于特定说话人的可能性与预定阈值来识别说话人。
传统机器学习方法在理想条件下能很好地完成这些任务,但在不利条件下,x-vectors的深度学习方法在许多场景和应用中取得了最先进的成果。
2. 数据集管理
2.1 数据集下载
使用LibriSpeech数据集的子集,该数据集是一个大型的英语朗读语音语料库,采样率为16 kHz。需要下载100小时的训练数据子集、干净的开发集和干净的测试集。
dataFolder = tempdir;
datasetTrain = fullfile(dataFolder,"LibriSpeech","train-clean-100");
if ~datasetExists(datasetTrain)
filename = "train-clean-100.tar.gz";
url = "http://www.openSLR.org/resources/12/" + filename;
gunzip(url,dataFolder);
unzippedFile = fullfile(dataFolder,filename);
untar(
超级会员免费看
订阅专栏 解锁全文
1380

被折叠的 条评论
为什么被折叠?



