NLP-Good Turning平滑

目录

1.遇见的问题

2.Good Turning平滑

3.实验数据


1.遇见的问题

这个平滑方法在语言模型里面应用较多。由于我们的词典库中,单词量非常大, 语料中基本上不会完全出现所有的词,因此,如何预测出现新词的概率?

2.Good Turning平滑

首先定义一个N(c):出现c次的单词的个数

比如N(1)=4,意思就是,出现1次的单词的个数为4。

那么对于没有出现过的单词,它们下次出现的概率,是所有出现次数为1的单词的数量,除以出现的单词总数。即P = N(1) / N

以此类推,对于出现过的单词,由于没出现的单词占据了一些概率,因此计算方式也发生了变化:

如下图所示:

 

3.实验数据

根据实际的实验数据,生成了如下表格:

每一列分别是:单词出现次数,对应次数的单词出现的数量,通过Good Turning计算的出现的概率,实际测试出现的概率。

可以看出,该平滑方法预测的概率相当准确。缺点是我们计算的时候会依赖于下一个数据,而下一个数据可能没有,可以使用机器学习拟合曲线,补充数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值