统计推断:稀疏数据上的n-gram模型
1. n-gram模型构建
在自然语言处理中,局部语境中的词汇共现、语义和基本句法关系能够很好地预测下一个单词,基于此的系统表现出色。接下来我们将详细介绍n-gram模型的构建过程。
1.1 语料选择
我们选择简·奥斯汀的小说作为语料,这些语料可通过古登堡计划免费获取,且规模适中,适合作为教材示例。不过,在尝试重现示例前,需确保有大约40Mb的可用磁盘空间。
1.2 语料预处理
虽然古登堡计划的奥斯汀文本是干净的纯ASCII文件,但仍存在标点符号附着在单词上的问题,因此不能仅按空格分割。我们采用简单的搜索替换模式去除所有标点,得到以空格分隔的单词序列。
我们选取《爱玛》《曼斯菲尔德庄园》《诺桑觉寺》《傲慢与偏见》和《理智与情感》作为训练语料,《劝导》作为测试语料。训练语料包含617,091个单词,词汇量为14,585个词型。
通常人们会用SGML标签标记句子,使句子概率计算依赖于“句子开头”语境。同时,我们保留大小写区分,大写单词可大致指示新句子的开始。
2. 统计估计器
给定落入特定分组的训练数据,我们的目标是基于这些数据为目标特征得出良好的概率估计。
2.1 符号说明
以下是统计估计章节中使用的符号说明:
| 符号 | 含义 |
| ---- | ---- |
| N | 训练实例的数量 |
| B | 训练实例划分的分组数量 |
| (n) -gram | 训练文本中的n-gram |
| (c(w)) | n-
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



