文章目录
1. 自适应
做了说话人识别,就一直就一些疑问:
什么是 (领域)自适应(domain adaption)?它跟 迁移学习(Transfer Learning) 有什么区别?
做自适应最终的效果能到什么程度?
PLDA是什么?跟自适应的关系是什么?
作用
自适应的作用是,补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题,包括说话人特性(说话方式、口音等)及环境特性(如录音设备、房间混响等)。
方法
(1)传统模型的自适应方法
在GMM-HMM模型中,自适应方法有特征空间变换和模型空间变换。Kaldi中主要采用的是特征空间变换方法(记住这个名称,后面会有解释): LDA、MLLT和fMLLR,其本质都是在训练过程中估计变换矩阵,然后构造变换后的特征,再迭代训练新的声学模型参数。
LDA+MLLT针对环境特性,拼接上下文多帧数据,再通过特征变换进行降维处理,因为与说话人无关,所以估计的是全局矩阵。
fMLLR针对说话人特性,基于每个说话人或每个utterance进行变换矩阵估计。
(2)深度神经网络的自适应方法
在DNN-HMM模型中,由于DNN的鉴别特性,GMM下的自适应方法不能直接拿来用,DNN下的自适应方法主要有线性变换、正则项法、子空间法(i-vector)。
迁移学习和自适应
简单粗暴的来说,自适应就是一种迁移学习的方法。
那如何理解自适应的本质?之前提到的”特征空间变换“又是什么意思?
领域自适应是迁移学习原先就有的概念,在研究源域和目标域时,基于某一特征,会发现两个域的数据分布差别很大。
假设要选择某一区域的颜色信息作为图像特征,上图红线表示source dataset的颜色信息值分布,蓝线表示target dataset的颜色信息值分布,很明显对于这一特征来讲,两个域的数据本来就是有shift的。而这个shift导致我们evaluate这个模型的时候准确率会大大降低,那么这个区域的颜色信息就不适合选择特征。
既然这个特征不合适,那我们就换特征。领域自适应旨在利用各种的feature transformation手段,学习一个域间不变的特征表达,基于这一特征,我们就可以更好的同时对两个域的数据进行分类了。
2. PLDA 自适应
PLDA
PLDA(Probabilistic Linear Discriminant Analysis)是一种信道补偿算法,号称概率形式的LDA算法,PLDA算法的信道补偿能力比LDA更好,已经成为目前最好的信道补偿算法。
建模
定义第i个说话人的第 j j j条语音为 x x xij,然后定义 x x xij的生成模型为:
x i j = μ + F h i + G w i j + ϵ i j x_{i j}=\mu+F h_{i}+G w_{i j}+\epsilon_{i j} xij=μ+Fhi+Gw

本文围绕说话人识别展开,介绍了自适应的作用、方法,包括传统模型和深度神经网络的自适应方法,指出自适应是迁移学习的一种。还阐述了PLDA算法,涵盖其建模、训练和测试过程,最后对Kladi中的源码进行解读,提醒数据质量和量对识别效果的影响。
最低0.47元/天 解锁文章
57

被折叠的 条评论
为什么被折叠?



