文本语料库结构与条件频率分布
1. 文本语料库结构概述
文本语料库有多种结构,最简单的语料库只是文本的集合,没有特定的组织形式。常见的语料库会将文本按体裁、来源、作者、语言等进行分类,这些类别有时会重叠,特别是主题类别,因为一篇文本可能与多个主题相关。此外,有些文本集合具有时间结构,新闻集合就是最常见的例子。
NLTK 的语料库读取器支持高效访问各种语料库,也可用于处理新的语料库。以下是 NLTK 语料库读取器提供的基本功能:
| 示例 | 描述 |
| — | — |
| fileids() | 语料库的文件 |
| fileids([categories]) | 对应这些类别的语料库文件 |
| categories() | 语料库的类别 |
| categories([fileids]) | 对应这些文件的语料库类别 |
| raw() | 语料库的原始内容 |
| raw(fileids=[f1,f2,f3]) | 指定文件的原始内容 |
| raw(categories=[c1,c2]) | 指定类别的原始内容 |
| words() | 整个语料库的单词 |
| words(fileids=[f1,f2,f3]) | 指定文件的单词 |
| words(categories=[c1,c2]) | 指定类别的单词 |
| sents() | 指定类别的句子 |
| sents(fileids=[f1,f2,f3]) | 指定文件的句子 |
| sents(categories=[c1,c2]) | 指定类别的句子 |
| abspa
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



