N-Grams

最新推荐文章于 2024-11-21 16:21:44 发布

粥老师

最新推荐文章于 2024-11-21 16:21:44 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： machine learning 文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/stupid_3/article/details/83184555

N-Gram是一种简单有效的语言模型，用于计算给定历史词语序列下下一个词的概率。本文介绍了N-Gram的基本概念，如bigram和trigram，以及如何解决概率为0的问题。通过最大似然估计方法估计概率，并讨论了实际操作中的问题，如处理短历史和使用对数概率。此外，还提到了评估语言模型的困惑度指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

给一系列的词语计算概率的模型叫做语言模型(Language Models)，其中，n-gram是最简单的一种。一个n-gram就是一个长度为N的词语组成的序列：

N=2，则是2-gram(bigram)
N=3，则是3-gram(trigram)

一个简单的例子

有一个任务，要计算 $P(w\vert h)$ ，即给定历史 $h$ 计算 $w$ 的概率。假设 $h=its\ water\ is\ so\ transparent\ that$ ，我们要计算下一个词the的概率，即：

$P(the\ \vert\ its\ water\ is\ so\ transparent\ that)$

一个可行的方式是：在一个很大的语料库中，统计 $its\ water\ is\ so\ transparent\ that$ 出现的次数，然后统计 $its\ water\ is\ so\ transparent\ that\ the$ 的次数，后者除以前者，即：

$P(the\ \vert\ its\ water\ is\ so\ transparent\ that)=\frac{C(\ its\ water\ is\ so\ transparent\ that\ the)}{C(\ its\ water\ is\ so\ transparent\ that)}$

这种方式在很多情况下可行。但是某些情况下仍然会有以下问题：

有些词语在预料中出现次数为0。

相似的问题还出现在：如果我们想知道整个序列的联合概率，例如 $P(its\ water\ is\ so\ transparent)$ ，那我们就可以将问题转化为：“在所有5个词语的序列中，its water is so transparent出现了几次？”

为了解决这个问题，我们需要更好地方式来估计 $w$ 基于 $h$ 的概率，或者整个序列的概率。

我们把一个长度为N的序列表示为 $w_1,w_2,\dots,w_n$

最低0.47元/天解锁文章

200万优质内容无限畅学