1.背景
最近在阅读论文的时候接触到了古德-图灵估计法,感觉比较模糊不清,进一步查阅了一些资料,希望有一个自己的直观理解。
…本论文采用的是古德-图灵估计法,其基本思想是对于任意出现r次的n元语法对,都假设它出现了r*次,即降低高概率的n元语法对,提高低概率的n元语法对…
1.1 为什么要用平滑技术?
通常来讲,我们认为N-gram模型是一个无监督模型,具有非常大的语料库。
然而,语料库再大,也会出现未知的N元对。
以bigram为例,p(鼠标|弃飞),语料库再大这个p(鼠标|弃飞)也该等于0吧?天王老子来了也是0(手动狗头
等于0有什么后果呢?
请做一道速算题,1秒出答案:
847/129333.333838*(109-23)/(33+100)*0=?
以我南山幼儿园珠心算冠军的名义,这显然等于0。
所以,以马尔科夫假设为基础的N-gram模型也会等于0。
当然,这只是举一个简单的例子,实际应用中可能不会受到影响,可能会受到更大的影响。
2. 什么是Good-Turning 平滑技术?
这一小节转载自:https://www.cnblogs.com/yhzhou/p/13308734.html

一般情况下,发生次数为r的词个数大于发生次数为r+1的词个数,r越大,词的数量Nr越小。通过Good-turning smooth可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。
通俗来说,有

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



