CE准则和MMI准则
Cross-Entropy准则和MMI准则分别是两种不同的训练方法ML和DT的常用的准则。而ML和DT训练方法的核心思想分别来自于MLE和MAP。
ML(Maximum Likelihood),即极大似然估计。
DT(Discriminative Training),即鉴别性训练。
MLE(Maximum Likelihood Estimate),即极大似然估计。
MAP(Maximum A Posteriori Estimation),即最大后验概率。
回顾语音识别最基本的公式:
P ( Y ∣ O ) = P ( O ∣ W ) P ( W ) P ( O ) P(Y|O) = \frac{P(O|W)P(W)}{P(O)} P(Y∣O)=P(O)P(O∣W)P(W)
其中W为word sequence,O为observe feature.
对语音识别问题应用贝叶斯风险对分类错误风险进行描述,可得参数优化的目标函数。
对于ML来说,其参数优化的目标函数是:
θ ^ M L = arg max θ P θ ( O ∣ W ) \hat{\theta}_{ML}=\arg\ \max_{\theta} P_{\theta}(O|W) θ^ML=arg θmaxPθ(O∣W)
对于DT来说,其参数优化的目标函数是:
θ ^ D T = arg max θ P θ ( W ∣ O ) = arg max θ P θ ( O ∣ W ) P ( W ) P θ ( O ) = arg max θ P θ ( O ∣ W ) P ( W ) ∑ ω P θ ( O ∣ ω ) P ( ω ) \hat{\theta}_{DT}=\arg\ \max_{\theta}P_{\theta}(W|O)=\arg\ \max_{\theta}\frac{P_{\theta}(O|W)P_(W)}{P_{\theta}(O)}=\arg \ \max_{\theta}\frac{P_{\theta}(O|W)P_(W)}{\sum_{\omega}P_{\theta}(O|\omega)P(\omega)} θ^DT=arg θmaxPθ(W∣O)=arg θmaxPθ(O)Pθ(O∣W)P(W)=arg θmax∑ωPθ(O∣ω)P(ω)Pθ(O∣W)P(W)
其中, ω {\omega} ω表示组成word sequence的所有可能路径。
注意:实际上这里给出的目标函数为MMI准则的目标函数,因为大部分鉴别性训练的目标函数均源于该目标函数的变形。这里指的“DT目标函数”只是一个广义的概念。
通过对比我们不难发现:对于ML,只需要优化参数 θ \theta θ使得给定训练word sequence得到当前feature的概率最大(也就是声学模型的概率最大)即可。对于DT,则需要一步到位,直接优化参数 θ \theta θ使得当前feature得到word sequence的概率最大。
用通俗的话来理解,ML是针对每一帧进行分类的优化,最小化每一帧的错误率。对于DT,则是直接针对句子进行优化,最大化观察序列分布与标注序列分布之间的相似性,直接减小句子错误率。
1. CE准则
对于分类任务,Cross Entropy准则经常被使用,
J C E ( θ ; S ) = 1 M ∑ m = 1 M J C E ( θ ; o m , w m ) J_{CE}(\theta;S)=\frac{1}{M}\sum_{m=1}^{M}J_{CE}(\theta;o^m,w^m) JCE(θ;S)=M1m=1∑MJCE(θ;om,wm)
J C E ( θ ; o , w ) = − ∑ i = 1 C w i log v i L J_{CE}(\theta;o,w)=-\sum_{i=1}^{C}w_i\log v_i^L JCE(θ;o,w)=−i=1∑CwilogviL
其中, M M M表示训练样本的个数, θ \theta θ表示模型参数, o m o^m om表示第m个观察向量, w m w^m wm表示相应的输出向量。 w i = P e m p ( i ∣ o ) w_i=P_{emp}(i|o) wi=Pemp(i∣o)是观察向量 o o o属于类 i i i的经验概率分布,该分布从训练数据的标注中来(下文会有相关描述)。 v i L = P d n n ( i ∣ o ) v_i^L=P_{dnn}(i|o) viL=Pdnn(i∣o)表示由DNN预测得到的观察向量 o o o属于类 i i i的概率分布。
交叉熵描述了两个概率分布之间的距离,交叉熵越小,两个概率分布越接近。最小化CE准则等价于最小化“经验概率分布”与“DNN估计得到的概率分布”的KL距离。
一般来说,描述“经验概率分布”会使用硬标注,即
w i = { 1 , 观察序列=标注序列 0 , else w_i=\begin{cases}1, & \text{观察序列=标注序列} \\[3ex]0, & \text{else}\end{cases} wi=⎩⎪⎨⎪⎧1,0,观察序列=标注序列else
故上述的CE准则会退化成为负的对数似然准则(negative log-likelihood,NLL)
J N L L ( θ ; o , w ) = − ∑ i = 1 C log v i L J_{NLL}(\theta;o,w)=-\sum_{i=1}^C\log v_i^L JNLL(θ;o,w)=−i=1∑ClogviL
2. MMI准则
2.1MMI准则推导
MMI准则(最大互信息量准则),该准则旨在最大化单词序列分布和观察序列分布的互信息。
令 W W W表示语音中所含信息的随机变量例如音素、孤立词、词串等, w w w为它的实例。令 O O O为表示观测序列的随机变量, o o o为它的实例。从信息论的观点出发,可以说信息 W W W被编码为 O O O。在 O O O给定的情况下,描述对 W W W平均不确定性的度量为条件熵 H ( W ∣ O ) H(W|O) H(W∣O),被写为:
H ( W ∣ O ) = − ∑ W , O p ( w , o ) log p ( w ∣ o ) = − E [ log p ( W ∣ O ) ] H(W|O)=-\sum_{W,O}p(w,o)\log p(w|o) = -E[\log p(W|O)] H(W∣O)=−W,O∑p(w,o)logp(w∣o)=−E[logp(W∣O)]
降低这个不确定度,就可以使解码器在解码时做出更“确信”的决断。
经过一系列的推导(详见声学模型区分性训练及其在自动语音识别中的应用),该训练准则可以等于最小化:
H ( W ∣ O ) = − 1 M ∑ m = 1 M log P ( o m ∣ w m ; θ ) P ( w m ) ∑ ω P ( o m ∣ ω ; θ ) P ( ω ) H(W|O)=-\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|w^m;\theta)P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)P(\omega)} H(W∣O)=−M1m=1∑Mlog∑ωP(om∣ω;θ)P(ω)P(om∣wm;θ)P(wm)
最大互信息量准则还可以看作是对训练集中所有训练语料正确模型序列后验概率的最大化,即最大化:
J M M I = 1 M ∑ m = 1 M log P ( o m ∣ w m ; θ ) P ( w m ) ∑ ω P ( o m ∣ ω ; θ ) P ( ω ) J_{MMI}=\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|w^m;\theta)P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)P(\omega)} JMMI=M1m=1∑Mlog∑ωP(om∣ω;θ)P(ω)P(om∣wm;θ)P(wm)
其中, θ \theta θ表示模型参数(weights和biases), o m = o 1 m , . . . , o t m , . . . , o T m m o^m=o_1^m,...,o_t^m,...,o_{T_m}^m om=o1m,...,otm,...,oTmm表示第m个样本的观察序列, w m = w 1 m , . . . , w t m , . . . , w N m m w^m=w_1^m,...,w_t^m,...,w_{N_m}^m wm=w1m,...,wtm,...,wNmm表示第m个样本的单词标注序列。M为训练集样本个数。 ω {\omega} ω表示组成单词序列的所有可能路径。
注意:
(1)为了便于理解,上文并没有引入标注序列 w m w^m wm的状态序列 s m s^m sm。在完整的公式当中,需要将标注序列 w m = w 1 m , . . . , w t m , . . . , w N m m w^m=w_1^m,...,w_t^m,...,w_{N_m}^m wm=w1m,...,wtm,...,wNmm拆分成状态序列 s m = s 1 m , . . . , s t m , . . . , s T m m s^m=s_1^m,...,s_t^m,...,s_{T_m}^m sm=s1m,...,stm,...,sTmm,使观察序列的每个值 o t m o_t^m otm均与一个状态值 s t m s_t^m stm对应。(若建模的单元是音素,标注序列拆分为标注序列就可以理解为将单词序列拆分成为对应的音素序列。状态序列将通过强制对齐获得。)
(2)因为声学模型得到的值和语言模型得到的值之间会存在一定的不适配,还需要一个声学缩放系数 κ \kappa κ使两个模型的比例关系协调。
完整的MMI准则可以表示为:
J M M I = 1 M ∑ m = 1 M log P ( o m ∣ s m ; θ ) κ P ( w m ) ∑ ω P ( o m ∣ ω ; θ ) κ P ( ω ) J_{MMI}=\frac{1}{M}\sum_{m=1}^{M}\log \frac{P(o^m|s^m;\theta)^{\kappa}P(w^m)}{\sum_\omega P(o^m|\omega ;\theta)^\kappa P(\omega)} JMMI=M1m=1∑Mlog∑ωP(om∣ω;θ)κP(ω)P<