文本语料库读取与处理:综合指南
1. 语料读取器概述
当语料库在磁盘上完成结构化和组织后,会带来两个方面的机遇:一是在编程环境中采用系统的方法访问语料库;二是能够监测和管理语料库的变化。目前,我们主要探讨如何加载文档以用于分析。
大多数有意义的语料库包含数千个文档,可能有数十亿字节的文本数据。从文档中加载的原始文本字符串需要进行预处理和解析,转换为适合分析的表示形式。这一过程可能会生成或复制数据,增加所需的工作内存。从计算角度来看,若没有从磁盘流式传输和选择文档的方法,文本分析很快会受到单台机器性能的限制,从而影响构建有价值模型的能力。幸运的是,NLTK 库提供了从磁盘流式访问语料库的工具,通过 CorpusReader 对象在 Python 中暴露语料库。
CorpusReader 是一个编程接口,用于读取、查找、流式传输和过滤文档,还能为需要访问语料库数据的代码提供编码和预处理等数据处理技术。实例化 CorpusReader 时,需要传入包含语料库文件的目录的根路径、用于发现文档名称的签名以及文件编码(默认是 UTF - 8)。
由于语料库中除了用于分析的文档外,还包含其他文件(如 README、引用、许可证等),因此需要一种机制让读取器准确识别哪些文档属于语料库。这个机制可以是一个参数,可显式指定为名称列表,也可隐式指定为正则表达式,用于匹配根目录下的所有文档。例如,正则表达式 \w+\.txt 可以匹配文件名中扩展名 .txt 之前有一个或多个字符或数字的文档。
以下是一个目录结构示例:
corpus
├── LICENSE.md
├──
超级会员免费看
订阅专栏 解锁全文
780

被折叠的 条评论
为什么被折叠?



