INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

本文探讨了元学习在调整声学模型自适应权重方面的潜力,实验证明其在DNN和TDNN声学模型自适应中优于传统方法。此外,研究了说话人自适应训练(SAT)对联合优化Tandem系统的性能提升,通过CMLLR和基于p-sigmoid的无监督适应,降低了自动语音识别(ASR)的错误率。在TED-LIUM语料库上的实验表明,结合混合技术和GMMD特征的SAT方法能提高识别性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Learning to adapt: a meta-learning approach for speaker adaptation》

这篇文章来自爱丁堡大学,以下是摘要:

        通过调整声学模型来补偿训练和测试条件之间的不匹配,例如通过适应看不见的说话人,可以改善ASR的识别性能。 说话人自适应方法的成功依赖于选择适合于自适应的权重并使用良好的自适应策略来更新这些权重以便不过拟合自适应数据。 在本文中,我们研究了使用元学习(meta-learning)来调整声学模型的自适应权重的原理方法。 实验表明,元学习器可以学习有监督和无监督的说话人自适应,并且当适应具有1.5M参数的DNN声学模型时,它优于适应LHUC参数的基线模型。 我们还报告了关于TDNN的声学模型自适应的初步实验,其中元学习器实现了与LHUC相当的性能。

 

 《Speaker Adaptation and Adaptive Training for Jointly Optimised Tandem Systems》

这篇文章来自剑桥大学,以下是摘要:

        已经发现通过联合优化瓶颈深度神经网络(BN DNN)和高斯混合模型(GMM)训练的说话人独立(SI)的串联系统产生与混合DNN系统类似的词错率(WER)。使用GMM的一个关键优势是可以使用现有的说话者自适应方法,例如最大似然线性回归(MLLR),其可以解决不同的说话者变化并提高系统稳健性。本文研究了联合优化的串联系统的说话人自适应和自适应训练(SAT)方案。所研究的自适应技术包括基于SAT的BN特征的cMLLR变换以及用于无监督的测试时间自适应的MLLR和参数化的sigmoid函数。使用英语多类型广播(MGB3)数据的实验表明,与联合训练的串联系统和Hybrid说话人独立系统相比,CMLLR SAT产生4%的相对WER减少,并且通过系统组合获得WER的进一步降低。

2. 串联系统和SAT:

2.1 串联系统:

串联系统使用BN DNN来提取用于训练GMM-HMM声学模型的特征。 BN DNN具有BN层,其尺寸通常比其他隐藏层小得多,以便生成适合用作GMM中的特征的紧凑输出矢量。对于2.1节中介绍的传统串联系统,BN DNN和GMM是分开训练的,其中BN特征未针对GMM进行优化。 对于联合MPE训练的串联系统,DNN参数{W 1 ... L,b 1 ... L}和GMM参数{φ(jm),μ(j),Σ(j)}同时使用 SGD(随机提督下降优化方法)和MPE(最小化音素级别的错误,目标函数)。 在训练期间,不仅使用BN特征估算GMM,而且还针对GMM优化BN特征。 联合MPE训练过程包括以下步骤[6]。

(i)BN DNN首先使用CE准则训练,使用由预训练系统生成的对齐结果。

(ii)一旦获得初始BN DNN,就移除BN层之后的层。 BN层激活函数改变为线性函数以生成BN特征。

(iii)通过将BN层的偏置项调整到线性BN特征标准差的六倍,从而将将BN层线性激活函数转换为几乎等效的ReLU函数。

(iv)使用BN层的ReLU函数输出值y bn(t),以最大似然(ML,在ML准则下,评价一个模型‘好坏’的标准是训练数据与模型匹配的似然度,如果似然度越高的话,我们说这个模型越好。)准则训练一组单因素GMM-HMM。这些系统表示为BN-GMM-HMM。

(v)单音素BN-GMM-HMM系统扩展到初始最大似然状态绑定的三音素GMM-HMM系统,使用HTK手册中的方法,即使用双模型重新估计方法重建以获取更准确的状态级对齐,以生成更好的决策树。

(vi)最后,使用基于MPE准则的SGD联合优化BN DNN和GMM。

注意,与通常基于标准声学特征构造决策树的传统串联系统不同,BN-GMM-HMM系统的决策树是基于CE准则的 BN特征构建的,这是对最终MPE的更好近似。 训练有素的BN特征,可以有更好的表现[6]。 此外,为了通过基于SGD的MPE训练获得良好的性能,I-smoothing [32],动态最大互信息(MMI)先验的使用以及基于百分位数的方差计算均来自扩展的Baum-Welch(EBW) 基于SGD框架的框架[6]。 此外,为了使模型训练稳定有效,采用了许多方法,例如放大GMM学习率并基于相对阈值削减更新值[6]。

2.2 说话人自适应训练

SD CMLLR变换可用于对BN特征对归一化。该SD CMLLR线性层插入在BN层和GMM之间,其参数在基于SGD的联合训练期间被冻结。以与传统的基于CMLLR的GMM-HMM SAT类似的方式,在每个基于SGD的联合训练epoch之后以交错方式更新CML

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值