数据平滑 自然语言处理

本文探讨了自然语言处理中为解决零概率问题的数据平滑处理方法,包括加一平滑、加法平滑、Good-Turing估计法、Katz平滑、Jelinek-Mercer平滑、Witten-Bell平滑、绝对值减法以及Kneser-Ney平滑等。这些方法通过调整概率分布,避免了零概率问题,提升了模型的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。

加一平滑方法

假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。

p(wi|wI1)=1+c(wi1,wi)wi[1+c(wi1,wi)]=1+c(wi1,wi)|V|+wi[1+c(wi1,wi)]p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]
加法平滑方法
p(wi|wI1)=δ+c(wi1,wi)δ|V|+wi[1+c(wi1,wi)]p(wi|wI−1)=δ+c(wi−1,wi)δ|V|+∑wi[1+c(wi−1,wi)]

其中 0δ10≤δ≤1

Good-Turing估计法

nrrnrnr是训练语料中恰好出现r次的n元语法的数目,假设它出现了r∗次。

r=(r+1)nr+1nrr∗=(r+1)nr+1nr

对于统计数为r的n元语法,其概率为pr=rr=1n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值