语料库基本函数表
示例 | 描述 |
---|---|
fileids() | 语料库中的文件 |
fileids([categories]) | 对应分类中的语料库文件 |
categories() | 语料库的分类 |
categories([fileids]) | 文件对应的语料库分类 |
raw(fileids=[f1,f2..],categories=[c1,c2…]) | 对应文件和分类中原始内容。参数可以式空 |
words(fileids=[f1,f2..],categories=[c1,c2…]) | 对应文件和分类的词汇。参数可以空 |
sents() | sents(fileids=[f1,f2..],categories=[c1,c2…]) |
abspath(fileid) | 文件在磁盘的位置 |
encoding(fileid) | 文件的编码 |
open(fileid) | 打开文件流 |
root() | 本地语料库corpus的位置 |
readme() | README文件的内容 |
文本语料库分类
- 最简单的是孤立的文本集合
- 按照文本等标签分类组成结构,如:布朗语料库
- 分类不严格,会重叠的语料库,如:路透社语料库
- 随时间/语言用法改变的语料库 ,如:就职演说库
常见语料库及其用法
注意
nltk.Text(string)
返回类似text1的Text对象
古藤堡语料库
包含36000本电子书,可以在这里下载
from nltk.corpus import gutenberg
print(gutenberg.fileids())
emma= gutenberg.words('austen-emma.txt')
print(gutenberg.raw('austen-emma.txt'))
emma = nltk.Text(emma)#
print(emma[:10])
网络&&聊天体
网络text主要是非正式文学,论坛交流,剧本,评论等。聊天文本是根据聊天室划分的(文件名包括 日期、聊天室、帖子数量),被划分为15个大文件。
#网络体:webtext
from nltk.corpus import webtext
for fileid in webtext.fileids():
print(fileid,webtext.raw(fileid)[:50])
[out]
firefox.txt Cookie Manager: "Don't allow sites that set remove
grail.t