《N-gram模型》的补充修正

最新推荐文章于 2025-07-06 15:50:05 发布

Sissi_cici

最新推荐文章于 2025-07-06 15:50:05 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：查询扩展明察秋毫文章标签：查询扩展 n-gram

本文链接：https://blog.youkuaiyun.com/Eliza1130/article/details/23356763

查询扩展同时被 2 个专栏收录

9 篇文章

订阅专栏

明察秋毫

1 篇文章

订阅专栏

本文介绍了N-Gram语言模型的基本原理，包括Bi-Gram和Tri-Gram的具体含义，并对最大似然估计进行了补充说明，纠正了常见误解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由前一篇转载的文章可知，N-Gram 该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bi-gram。如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为tri-gram。

补充修正：

前一篇转载的文章称，“那么我们怎么得到P(Wn|W1W2…Wn-1)呢？一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate）了。即P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))“（*）式

个人认为此处并没有用到最大似然估计，而仅仅是使用了简单的条件概率密度公式，P(A|B)=P(AB)/P(B)。（害楼主看原文时迷糊了好久><）

即P(Wn|W1W2…Wn-1) = (P(W1 W2…Wn))/(P(W1 W2…Wn-1))=(C(W1 W2…Wn))/(C(W1 W2…Wn-1))，其中C(W1 W2…Wn)为序列W1 W2…Wn的统计次数。

补充知识：最大似然估计的概念。

给定一个概率分布 $D$ ，假定其概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_D$ ，以及一个分布参数 $\theta$ ，我们可以从这个分布中抽出一个具有 $n$ 个值的采样 $X_1, X_2,\ldots, X_n$ ，通过利用 $f_D$ ，我们就能计算出其概率：