srilm语言模型中的平滑算法——Good-Turing平滑算法

最新推荐文章于 2025-06-19 20:18:52 发布

Vincent-Yuan

最新推荐文章于 2025-06-19 20:18:52 发布

阅读量8.6k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签：自然语言处理语言模型

本文链接：https://blog.youkuaiyun.com/vincent1y/article/details/81565388

NLP 专栏收录该内容

7 篇文章

订阅专栏

本文对比了自写语言模型与SRILM，并详细介绍了SRILM中的回退和平滑算法，特别是Good-Turing平滑算法的工作原理及实现过程。

最近使用使用python自己写的语言模型和srilm得到的语言模型做对比，srilm里还是有很多trick的，尤其是平滑算法，集成了很多数据平滑算法，研究的时候，记录一下。

在srilm中有回退和差值两类平滑算法，简单来说，回退就是将出现过的ngram的概率打个折扣，将那部分折扣下来的概率均摊为未出现的ngram作为他们的概率，而插值呢，一样是对出现过的ngram打折扣，但是折扣下来的概率值均摊到所有的ngram上。对于那些出现的ngram来说，他们使用最大似然得到的真正概率(频率)A大于使用插值得到的概率B大于使用回退得到的概率C，即

A>B>C

主要使用的平滑算法

Good-Turing平滑算法

Good-Turing算法的思想是，对于出现次数大于某一阈值的ngram使最大似然用频率计算是比较准确的，但是如果小于这个阈值，最大似然估计就不准了。这时候，算法的处理就是利用出现次数较多的N阶元组去调整出现比他少的N阶元组的估计量。算法的

对于中产（那些发生次数小于阈值的元组）发生了r次，假设它发生了r*次：

$\boldsymbol{r}*=\boldsymbol{(r+1)}\frac{N_{r+1}}{N_{r}}$

$\boldsymbol{N_{r}}$ 是所有发生次数为r的元组个数，同样 $\boldsymbol{N_{r+1}}$ 是所有发生次数为r+1的元组个数，一般来说，发生次数为r的元组个数多余发生次数为r+1的元组个数，这里不要弄混发生次数和元组个数，如果做个比喻的话，那元组就是字典的key，元组个数是字典的value，元组个数是key的个数，不太严谨，但是好理解。