中文纠错之N-gram

最新推荐文章于 2024-05-08 12:49:54 发布

越丘

最新推荐文章于 2024-05-08 12:49:54 发布

阅读量3.2k

点赞数 1

分类专栏：腾讯实习记录

腾讯实习记录专栏收录该内容

5 篇文章

订阅专栏

中文纠错之N-gram

1. N-gram介绍
2. 公式
3. Bi-gram例子
4. 评估模型优劣
5. 参考博文

1. N-gram介绍

N-gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。整个句子出现的概率就等于各个词出现的概率乘积（各个词是相互独立的），各个词的概率可以通过语料中统计计算得到。

N=1时称为unigram，N=2称为bigram，N=3称为trigram，假设下一个词的出现依赖它前面的一个词，即 bigram，假设下一个词的出现依赖它前面的两个词，即 trigram，以此类推。

理论上，n越大越好，经验上，trigram用的最多，但原则上能用bigram解决，绝不使用trigram

举例：“你今天休假了吗”，它的bigram依次为：
你今，今天，天休，休假，假了，了吗

2. 公式

假设句子T是由词序列w1,w2,w3…wn组成，用公式表示N-gram语言模型如下：

P(T) = P(w1)*p(w2)*p(w3)***p(wn) = p(w1)p(w2|w1)p(w3|w1w2) *p(wn|w1w2w3…)

以上公式较难以实际应用，此时出现马尔可夫模型，该模型认为，一个词的出现仅仅依赖于它前面出现的几个词。这大大化简了上述公式

P(w1)P(w2|w1)P(w3|w1w2)…P(wn|w1w2…wn-1) ≈ P(w1)P(w2|w1)P(w3|w2)…P(wn|wn-1)

一般常用的N-gram模型是Bi-gram和Tri-gram，分别用公式表示如下：

Bi-gram:
P(T)=p(w1|begin)*p(w2|w1)*p(w3|w2)***p(wn|wn-1)
Tri-gram:
P(T)=p(w1|begin1,begin2)*p(w2|w1,begin1)*p(w3|w2w1)***p(wn| wn-1,wn-2)

注意上面概率的计算方法：

P(w1|begin) = (以为w1开头的句子数) / (句子总数)

3. Bi-gram例子

语句：“< s1 > 猫，跳上，椅子 < /s1 >”
在这里< s1 >是句首标志，< /s1 >是句尾标志，Tri-gram就有< s1 > < s2 > < /s2 > < /s1 >
P(A = “猫”，B = “跳上”，C = “椅子”）= P（“猫”|“< s1 >”）* P（“跳上”|“猫”）* P（“椅子”|“跳上”）* P（“< /s1 >”|“椅子”）
其中各个词在语料库中统计的数量如下：