[NLP] 实例讲解 N-gram语言模型 中 Good-Turning 平滑技术

1.背景

最近在阅读论文的时候接触到了古德-图灵估计法,感觉比较模糊不清,进一步查阅了一些资料,希望有一个自己的直观理解。

…本论文采用的是古德-图灵估计法,其基本思想是对于任意出现r次的n元语法对,都假设它出现了r*次,即降低高概率的n元语法对,提高低概率的n元语法对…

1.1 为什么要用平滑技术?

通常来讲,我们认为N-gram模型是一个无监督模型,具有非常大的语料库。
然而,语料库再大,也会出现未知的N元对。
以bigram为例,p(鼠标|弃飞),语料库再大这个p(鼠标|弃飞)也该等于0吧?天王老子来了也是0(手动狗头
等于0有什么后果呢?
请做一道速算题,1秒出答案:
847/129333.333838*(109-23)/(33+100)*0=?
以我南山幼儿园珠心算冠军的名义,这显然等于0。
所以,以马尔科夫假设为基础的N-gram模型也会等于0。
当然,这只是举一个简单的例子,实际应用中可能不会受到影响,可能会受到更大的影响。

2. 什么是Good-Turning 平滑技术?

这一小节转载自:https://www.cnblogs.com/yhzhou/p/13308734.html

在这里插入图片描述

一般情况下,发生次数为r的词个数大于发生次数为r+1的词个数,r越大,词的数量Nr越小。通过Good-turning smooth可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。

通俗来说,有

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值