问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。
加一平滑方法
假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。
p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]
加法平滑方法
p(wi|wI−1)=δ+c(wi−1,wi)δ|V|+∑wi[1+c(wi−1,wi)]p(wi|wI−1)=δ+c(wi−1,wi)δ|V|+∑wi[1+c(wi−1,wi)]
其中 0≤δ≤10≤δ≤1
Good-Turing估计法
nr是训练语料中恰好出现r次的n元语法的数目,假设它出现了r∗次。nr是训练语料中恰好出现r次的n元语法的数目,假设它出现了r∗次。
r∗=(r+1)nr+1nrr∗=(r+1)nr+1nr
对于统计数为r的n元语法,其概率为pr=r∗∑r=1∞n