NLTK学习笔记(二):文本、语料资源和WordNet汇总

最新推荐文章于 2025-05-06 17:57:19 发布

心谭

最新推荐文章于 2025-05-06 17:57:19 发布

阅读量1.6k

点赞数 3

CC 4.0 BY-SA版权

文章标签：自然语言处理

本文链接：https://blog.youkuaiyun.com/AsuraDong/article/details/72903925

本文介绍了NLTK中的语料库，包括古藤堡、布朗、路透社和就职演说语料库的使用，以及如何加载自定义语料库。此外，还详细探讨了WordNet的词义网络，如同义词、上位词、下位词、反义词的关系，以及如何计算词义相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语料库基本函数表

示例	描述
fileids()	语料库中的文件
fileids([categories])	对应分类中的语料库文件
categories()	语料库的分类
categories([fileids])	文件对应的语料库分类
raw(fileids=[f1,f2..],categories=[c1,c2…])	对应文件和分类中原始内容。参数可以式空
words(fileids=[f1,f2..],categories=[c1,c2…])	对应文件和分类的词汇。参数可以空
sents()	sents(fileids=[f1,f2..],categories=[c1,c2…])
abspath(fileid)	文件在磁盘的位置
encoding(fileid)	文件的编码
open(fileid)	打开文件流
root()	本地语料库corpus的位置
readme()	README文件的内容

文本语料库分类

最简单的是孤立的文本集合
按照文本等标签分类组成结构，如：布朗语料库
分类不严格，会重叠的语料库，如：路透社语料库
随时间/语言用法改变的语料库，如：就职演说库

常见语料库及其用法

注意nltk.Text(string) 返回类似text1的Text对象

古藤堡语料库

包含36000本电子书，可以在这里下载

from nltk.corpus import gutenberg
print(gutenberg.fileids())

emma= gutenberg.words('austen-emma.txt')
print(gutenberg.raw('austen-emma.txt'))
emma = nltk.Text(emma)#
print(emma[:10])

网络&&聊天体

网络text主要是非正式文学，论坛交流，剧本，评论等。聊天文本是根据聊天室划分的（文件名包括日期、聊天室、帖子数量），被划分为15个大文件。

#网络体：webtext
from nltk.corpus import webtext
for fileid in webtext.fileids():
    print(fileid,webtext.raw(fileid)[:50])

[out]
firefox.txt Cookie Manager: "Don't allow sites that set remove
grail.t

最低0.47元/天解锁文章

200万优质内容无限畅学