统计语言模型（上）

最新推荐文章于 2024-11-03 22:29:28 发布

原创最新推荐文章于 2024-11-03 22:29:28 发布 · 784 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言 #nlp #马尔可夫

数学之美专栏收录该内容

18 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

nl从产生，逐渐演变成一种上下文相关的信息表达和传递的方式，因此让计算机处理nl，一个基本的问题就是为这种上下文相关的特性建立数学模型，这个模型就是在nlp中常说的统计语言模型，它是今天所有nlp的基础，并且广泛应用于机器翻译、语言识别、印刷体或手写体识别、汉字输入等。

其实一个句子，可以合乎语法的表达词义，也可以不合乎语法的表达词义。上世纪70年代以前，科学家试图判断文字序列是否合乎文法、含义是否正确，正如之前讲的，这条路走不通。贾里尼克换了个角度，用一个简单的统计模型漂亮地搞定了这个问题。贾里尼克的出发点很简单：一个句子是否合理，就看它的可能性大小如何。至于可能性就用概率来衡量，普遍而严格的描述是：假定S表示一个有意义的句子，由一连串特定顺序排列的词w1,w2,...wn组成，n是句子的长度。现在，我们想知道S在文本中出现的可能性，也就是数学上说的S的概率P(S)。也可以把人类有史以来说的话统计一下然后算这句话出现的概率，但这种方法傻子都知道不行。因此需要一个模型来估算，既然S=w1,w2,...wn，那么不妨把P(S)展开表示：P(S)=P(w1,w2,...wn)，利用条件概率公式，S这个序列出现的概率等于每个词出现的条件概率相乘。于是

P(w1,w2,...wn)=P(w1)·P(w2|w1)···P(wn|w1,w2,...wn-1)。

P(w1)表示第一个词w1出现的概率；P(w2|w1)是在已知第一个词的前提下，第二个词出现的概率；依次类推。从计算上看，第一个词的条件概率很容易算，第二个词的概率也还不算太麻烦，第三个词已经非常难算了，因为它涉及三个变量w1，w2，w3，每个变量的可能性都是一种语言字典的大小。到了最后一个词，条件概率P(wn|w1,w2,...wn-1)的可能性太大，无法估算。

点解？19世纪末，俄国有个数学家叫马尔可夫，提出了一种偷懒但颇为有效的方法，就是假设任意一个单词出现的概率只跟它前面的单词有关，于是问题就变得很简单了。这种假设在数学上称为马尔可夫假设。现在，S出现的概率：P(S)=P(w1)·P(w2|w1)···P(wn|wn-1)，这个公式对应的统计语言模型是二元模型。当然也可以假设一个词由前面n-1个词决定，对应的模型稍微复杂些，称为N元模型。现在问题变成了如何估计条件概率P(wi|wi-1)。

根据定义：P(wi|wi-1)=P(wi-1,wi)/P(wi-1)，而估计联合概率P(wi-1,wi)和边缘概率P(wi-1)很简单。因为有大量机读文本，只要数一数wi-1,wi这对词在统计的文本中前后相邻出现了多少次，以及wi-1本身在同样的文本中出现了多少次，然后除以语料库大小即可求出这些词或者二元组的相对频度。根据大数定理，只要统计量足够，相对频度就等于频率。

您可能感兴趣的与本文相关的镜像