19、统计推断:稀疏数据上的n-gram模型

统计推断:稀疏数据上的n-gram模型

1. n-gram模型构建

在自然语言处理中,局部语境中的词汇共现、语义和基本句法关系能够很好地预测下一个单词,基于此的系统表现出色。接下来我们将详细介绍n-gram模型的构建过程。

1.1 语料选择

我们选择简·奥斯汀的小说作为语料,这些语料可通过古登堡计划免费获取,且规模适中,适合作为教材示例。不过,在尝试重现示例前,需确保有大约40Mb的可用磁盘空间。

1.2 语料预处理

虽然古登堡计划的奥斯汀文本是干净的纯ASCII文件,但仍存在标点符号附着在单词上的问题,因此不能仅按空格分割。我们采用简单的搜索替换模式去除所有标点,得到以空格分隔的单词序列。
我们选取《爱玛》《曼斯菲尔德庄园》《诺桑觉寺》《傲慢与偏见》和《理智与情感》作为训练语料,《劝导》作为测试语料。训练语料包含617,091个单词,词汇量为14,585个词型。

通常人们会用SGML标签标记句子,使句子概率计算依赖于“句子开头”语境。同时,我们保留大小写区分,大写单词可大致指示新句子的开始。

2. 统计估计器

给定落入特定分组的训练数据,我们的目标是基于这些数据为目标特征得出良好的概率估计。

2.1 符号说明

以下是统计估计章节中使用的符号说明:
| 符号 | 含义 |
| ---- | ---- |
| N | 训练实例的数量 |
| B | 训练实例划分的分组数量 |
| (n) -gram | 训练文本中的n-gram |
| (c(w)) | n-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值