12、文本挖掘中的语料库统计与语言特性分析

最新推荐文章于 2025-10-30 13:18:47 发布

study

最新推荐文章于 2025-10-30 13:18:47 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏： MATLAB文本挖掘实战文章标签：文本挖掘语料库统计 Zipf定律

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/study/article/details/151211297

MATLAB文本挖掘实战专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本挖掘中的语料库统计与语言特性分析

1. 引言

文本挖掘的基本目标是从大量数据中发现和提取相关有价值的信息。语料库统计是基于对大量文本基本属性和规律的观察，是文本模型的基础。本文将介绍自然语言的基本属性，通过对圣经英文语料库的分析，阐述Zipf定律和间歇性等特性。

2. 构建圣经语料库索引

2.1 索引简介

索引是列出书中使用的单词及其相应上下文和确切位置的专门索引，对学者研究文本非常有价值。下面将介绍构建圣经钦定版语料库索引的步骤。

2.2 操作步骤

学习函数 ：使用 help 命令学习 context 函数。
下载数据 ：从Project Gutenberg网站（https://www.gutenberg.org/files/10/10 - 0.txt ）下载圣经钦定版的纯文本。
加载文本 ：将文本加载到字符串数组中，每个元素为一节经文，注意只读取相关文本，可使用修改后的 getdocs 函数。
构建分词文档 ：使用 tokenisedDocument 构建分词文档表示。
获取上下文信息 ：使用 context 函数获取词汇表中所有单词的上下文出现情况，将结果存

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。