基于WBIG监督度量学习的说话人验证及SNR自适应目标学习的语音增强方法
1. WBIG监督度量学习实验
在说话人验证领域,提出了基于类内和类间点插值生成(WBIG)的监督度量学习方法。下面介绍相关实验情况。
1.1 实验设置
- 数据集 :
- CNCeleb :包含来自3000位中国名人的超过130k条语音,涵盖电影、访谈等11种不同类型。采用2768位说话人进行训练,200位说话人进行测试。
- Voxceleb :使用VoxCeleb2 - dev作为训练集,包含来自5994位说话人的1092009条语音;采用官方的VoxCeleb - O作为评估集。
- 输入特征 :使用Kaldi工具包进行特征提取。将25ms窗口、帧移为10ms的语音转换为41维滤波器组(FBank)声学特征,利用基于能量的语音活动检测(VAD)去除静音段,训练特征随机截断为2 - 4s的短片段。
- 基线配置 :默认基线特征提取器为ResNet - 18,特征图大小为[256, 400, 1, 128] ([B, T, F, C])。采用注意力双线性池化(ABP)获取256维的说话人嵌入。批量大小为256,每个小批量包含128位说话人用于基于对的度量学习。网络使用随机梯度下降(SGD)进行优化,动量为0.9,权重衰减为5e - 4。默认将公式(1)中的m设为4,公式(5)中正点权重系数λ的范围
超级会员免费看
订阅专栏 解锁全文

1157

被折叠的 条评论
为什么被折叠?



