概率论
最大似然估计
如果s1,s2,...,sns1,s2,...,sn是一个试验的样本空间,在相同情况下重复N次试验,观察到样本sksk的次数为nN(sk)nN(sk),那么sksk在这N次试验中相对频率为qN(sk)=nN(sk)NqN(sk)=nN(sk)N。当N越来越大时,满足limN→∞qN(sk)=P(sk)limN→∞qN(sk)=P(sk)
条件概率
P(A|B)=P(A∩B)P(B)P(A|B)=P(A∩B)P(B)
贝叶斯法则
P(Bi|A)=P(A|Bi)P(Bi)∑j=1nP(A|Bj)P(Bj)P(Bi|A)=P(A|Bi)P(Bi)∑j=1nP(A|Bj)P(Bj)
argmaxBP(A|B)P(B)P(A)=argmaxBP(A|B)P(B)argmaxBP(A|B)P(B)P(A)=argmaxBP(A|B)P(B)
二项式分布
pi=CIn⋅pI(1−p)n−ipi=CnI⋅pI(1−p)n−i
联合概率分布和条件概率分布
P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj)P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj)
信息论
熵
熵又称为自信息,描述一个随机变量的不确定性的数量。
H(X)=−∑x∈Rp(x)logp(x)H(X)=−∑x∈Rp(x)logp(x)
联合熵和条件熵
如果X,Y时一对离散型随机变量。X,Y的联合熵H(X,Y)的定义为
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
H(Y|X)=−∑x∈X∑y∈Yp(x,y)logp(y|x)H(Y|X)=−∑x∈X∑y∈Yp(x,y)logp(y|x)
H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y|X)
推广到一般情况
H(X1,X2,⋯.Xn)=H(X1)+H(X2|X1)+⋯+H(Xn|X1,⋯,Xn−1)H(X1,X2,⋯.Xn)=H(X1)+H(X2|X1)+⋯+H(Xn|X1,⋯,Xn−1)
互信息
X和Y的互信息,记作I(X;Y)。I(X;Y)=H(X)−H(X|Y)I(X;Y)=H(X)−H(X|Y)。反映知道了Y的值以后X的不确定性的减少量,换一句话说,理解Y的值透露了多少关于X的信息量。
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)
相对熵
相对熵也称KL距离,描述相同事件空间里两个概念分布相对差距的测度。
D(p||q)=∑x∈Xp(x)logp(x)q(x)D(p||q)=∑x∈Xp(x)logp(x)q(x)
D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))
D(p(y|x)||q(y|x))=∑xp(x)∑yp(y|x)logp(y|x)q(y|x)D(p(y|x)||q(y|x))=∑xp(x)∑yp(y|x)logp(y|x)q(y|x)
交叉熵
交叉熵时用来衡量估计模型与真实概率分布之间差异情况的。
H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)
一般地,N足够大时,近似采用以下计算
H(L,q)=−1Nlogq(xN1)H(L,q)=−1Nlogq(x1N)。其中的q(x)是模型q对x概率的估计值。
困惑度
语言模型设计的任务就是要寻找困惑度最小的模型,使其最接近真实语言的情况。
PPq=2H(L,q)=[q(ln1)]−1nPPq=2H(L,q)=[q(l1n)]−1n
Reference
《统计自然语言处理(第二版)》