文本挖掘中的语料库统计与语言特性分析
1. 引言
文本挖掘的基本目标是从大量数据中发现和提取相关有价值的信息。语料库统计是基于对大量文本基本属性和规律的观察,是文本模型的基础。本文将介绍自然语言的基本属性,通过对圣经英文语料库的分析,阐述Zipf定律和间歇性等特性。
2. 构建圣经语料库索引
2.1 索引简介
索引是列出书中使用的单词及其相应上下文和确切位置的专门索引,对学者研究文本非常有价值。下面将介绍构建圣经钦定版语料库索引的步骤。
2.2 操作步骤
- 学习函数 :使用
help命令学习context函数。 - 下载数据 :从Project Gutenberg网站(https://www.gutenberg.org/files/10/10 - 0.txt )下载圣经钦定版的纯文本。
- 加载文本 :将文本加载到字符串数组中,每个元素为一节经文,注意只读取相关文本,可使用修改后的
getdocs函数。 - 构建分词文档 :使用
tokenisedDocument构建分词文档表示。 - 获取上下文信息 :使用
context函数获取词汇表中所有单词的上下文出现情况,将结果存
超级会员免费看
订阅专栏 解锁全文
884

被折叠的 条评论
为什么被折叠?



