统计语言模型(上)

部署运行你感兴趣的模型镜像

    nl从产生,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理nl,一个基本的问题就是为这种上下文相关的特性建立数学模型,这个模型就是在nlp中常说的统计语言模型,它是今天所有nlp的基础,并且广泛应用于机器翻译、语言识别、印刷体或手写体识别、汉字输入等。

    其实一个句子,可以合乎语法的表达词义,也可以不合乎语法的表达词义。上世纪70年代以前,科学家试图判断文字序列是否合乎文法、含义是否正确,正如之前讲的,这条路走不通。贾里尼克换了个角度,用一个简单的统计模型漂亮地搞定了这个问题。贾里尼克的出发点很简单:一个句子是否合理,就看它的可能性大小如何。至于可能性就用概率来衡量,普遍而严格的描述是:假定S表示一个有意义的句子,由一连串特定顺序排列的词w1,w2,...wn组成,n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学上说的S的概率P(S)。也可以把人类有史以来说的话统计一下然后算这句话出现的概率,但这种方法傻子都知道不行。因此需要一个模型来估算,既然S=w1,w2,...wn,那么不妨把P(S)展开表示:P(S)=P(w1,w2,...wn),利用条件概率公式,S这个序列出现的概率等于每个词出现的条件概率相乘。于是

    P(w1,w2,...wn)=P(w1)·P(w2|w1)···P(wn|w1,w2,...wn-1)。

    P(w1)表示第一个词w1出现的概率;P(w2|w1)是在已知第一个词的前提下,第二个词出现的概率;依次类推。从计算上看,第一个词的条件概率很容易算,第二个词的概率也还不算太麻烦,第三个词已经非常难算了,因为它涉及三个变量w1,w2,w3,每个变量的可能性都是一种语言字典的大小。到了最后一个词,条件概率P(wn|w1,w2,...wn-1)的可能性太大,无法估算。

    点解?19世纪末,俄国有个数学家叫马尔可夫,提出了一种偷懒但颇为有效的方法,就是假设任意一个单词出现的概率只跟它前面的单词有关,于是问题就变得很简单了。这种假设在数学上称为马尔可夫假设。现在,S出现的概率:P(S)=P(w1)·P(w2|w1)···P(wn|wn-1),这个公式对应的统计语言模型是二元模型。当然也可以假设一个词由前面n-1个词决定,对应的模型稍微复杂些,称为N元模型。现在问题变成了如何估计条件概率P(wi|wi-1)。

    根据定义:P(wi|wi-1)=P(wi-1,wi)/P(wi-1),而估计联合概率P(wi-1,wi)和边缘概率P(wi-1)很简单。因为有大量机读文本,只要数一数wi-1,wi这对词在统计的文本中前后相邻出现了多少次,以及wi-1本身在同样的文本中出现了多少次,然后除以语料库大小即可求出这些词或者二元组的相对频度。根据大数定理,只要统计量足够,相对频度就等于频率。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值