预备数学知识 自然语言处理

本文介绍了概率论的基础概念,包括最大似然估计、条件概率、贝叶斯法则等,并详细阐述了信息论中的核心概念如熵、联合熵、条件熵、互信息以及相对熵等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概率论
最大似然估计

如果s1,s2,...,sns1,s2,...,sn是一个试验的样本空间,在相同情况下重复N次试验,观察到样本sksk的次数为nN(sk)nN(sk),那么sksk在这N次试验中相对频率为qN(sk)=nN(sk)NqN(sk)=nN(sk)N。当N越来越大时,满足limNqN(sk)=P(sk)limN→∞qN(sk)=P(sk)

条件概率
P(A|B)=P(AB)P(B)P(A|B)=P(A∩B)P(B)
贝叶斯法则
P(Bi|A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj)P(Bi|A)=P(A|Bi)P(Bi)∑j=1nP(A|Bj)P(Bj)
argmaxBP(A|B)P(B)P(A)=argmaxBP(A|B)P(B)arg⁡maxB⁡P(A|B)P(B)P(A)=arg⁡maxB⁡P(A|B)P(B)
二项式分布

pi=CInpI(1p)nipi=CnI⋅pI(1−p)n−i

联合概率分布和条件概率分布
P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj)P(X1=ai|X2=bj)=P(X1=ai,X2=bj)P(X2=bj)
信息论

熵又称为自信息,描述一个随机变量的不确定性的数量。
H(X)=xRp(x)logp(x)H(X)=−∑x∈Rp(x)log⁡p(x)

联合熵和条件熵

如果X,Y时一对离散型随机变量。X,Y的联合熵H(X,Y)的定义为
H(X,Y)=xXyYp(x,y)logp(x,y)H(X,Y)=−∑x∈X∑y∈Yp(x,y)log⁡p(x,y)
H(Y|X)=xXyYp(x,y)logp(y|x)H(Y|X)=−∑x∈X∑y∈Yp(x,y)log⁡p(y|x)
H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y|X)
推广到一般情况
H(X1,X2,.Xn)=H(X1)+H(X2|X1)++H(Xn|X1,,Xn1)H(X1,X2,⋯.Xn)=H(X1)+H(X2|X1)+⋯+H(Xn|X1,⋯,Xn−1)

互信息

X和Y的互信息,记作I(X;Y)。I(X;Y)=H(X)H(X|Y)I(X;Y)=H(X)−H(X|Y)。反映知道了Y的值以后X的不确定性的减少量,换一句话说,理解Y的值透露了多少关于X的信息量。
I(X;Y)=x,yp(x,y)logp(x,y)p(x)p(y)I(X;Y)=∑x,yp(x,y)log⁡p(x,y)p(x)p(y)

相对熵

相对熵也称KL距离,描述相同事件空间里两个概念分布相对差距的测度。
D(p||q)=xXp(x)logp(x)q(x)D(p||q)=∑x∈Xp(x)log⁡p(x)q(x)
D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))
D(p(y|x)||q(y|x))=xp(x)yp(y|x)logp(y|x)q(y|x)D(p(y|x)||q(y|x))=∑xp(x)∑yp(y|x)log⁡p(y|x)q(y|x)

交叉熵

交叉熵时用来衡量估计模型与真实概率分布之间差异情况的。
H(X,q)=H(X)+D(p||q)=xp(x)logq(x)H(X,q)=H(X)+D(p||q)=−∑xp(x)log⁡q(x)
一般地,N足够大时,近似采用以下计算
H(L,q)=1Nlogq(xN1)H(L,q)=−1Nlog⁡q(x1N)。其中的q(x)是模型q对x概率的估计值。

困惑度

语言模型设计的任务就是要寻找困惑度最小的模型,使其最接近真实语言的情况。
PPq=2H(L,q)=[q(ln1)]1nPPq=2H(L,q)=[q(l1n)]−1n

Reference
《统计自然语言处理(第二版)》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值