7、统计推断:稀疏数据上的n-gram模型

统计推断:稀疏数据上的n-gram模型

在自然语言处理领域,统计推断起着至关重要的作用。统计自然语言处理(Statistical NLP)旨在对自然语言进行统计推断,即通过分析数据(这些数据是按照某种未知的概率分布生成的)来对该分布进行推断。例如,我们可以观察语料库中大量介词短语附着的实例,以此来尝试预测英语中介词短语的附着情况。

1. 形成等价类

在进行特征推断时,我们通常希望找到模型中能够预测目标特征的其他特征。这里我们假设过去的行为是未来情况的良好指南,即模型大致是平稳的。这就引出了一个分类任务:我们试图根据各种分类特征来预测目标特征。在这个过程中,我们实际上是将数据划分为等价类,这些等价类在某些分类特征上具有相同的值,然后利用这些等价类来帮助预测新数据上目标特征的值。

然而,这也意味着我们在默认情况下做出了独立性假设:数据要么不依赖于其他特征,要么这种依赖关系非常微弱,我们希望忽略它而不会造成太大的影响。我们识别的相关分类特征越多,就越有可能精细地梳理出决定目标特征未知概率分布的条件。也就是说,将数据划分为更多的“桶”(bins)可以提高区分度。但问题是,如果我们使用过多的桶,某个桶可能包含很少或甚至没有训练实例,这样我们就无法对该桶中的目标特征进行可靠的统计估计。因此,找到在区分度和可靠性之间取得良好折中的等价类是我们的首要目标。

1.1 n-gram模型

预测下一个单词的任务可以表述为尝试估计概率函数 (P(w_n|w_1, \ldots, w_{n - 1}))。在这样的随机问题中,我们使用对先前单词(即历史)的分类来预测下一个单词。由于我们不可能单独考虑每个文本历史,因此需要一种方法来对相似的历史进行分组,以便合理预测接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值