一般我们首先训练说话人识别的模型是使用英文数据集,但是如果想实际应用在中文的话,则必须对模型进行finetune,那么如何对模型进行finetune 呢?图像识别中模型的finetune通常也称为迁移学习,所研究的是如何将源域的知识应用在目标域,将已训练的权值知识用于新的任务,具体步骤为:
- 获取模型训练参数
- 加载模型
- 修改输出层(即类别)
- 训练模型(通常为了使模型参数变换不会过于剧烈,会将学习率调小很多)
那么在说话人识别任务中如何进行模型finetune呢,最近看的一篇论文如下:
本篇paper通过模型的finetune得到一个很好的效果,EER同比降了0.3%左右。
我使用的模型和这篇paper不一样,但使用的数据增强方法是参照这篇的,所以模型finetun