文本预处理与向量化:从语料库到机器学习的关键步骤
1. 语料库监控与转换
随着语料库通过摄取、预处理和压缩不断增长, describe() 方法可用于重新计算相关指标,以观察这些指标随时间的变化。这是一种关键的监控技术,有助于诊断应用程序中的问题。机器学习模型期望数据的某些特征(如词汇多样性和每个文档的段落数量)保持一致,如果语料库发生变化,很可能会影响模型性能。因此, describe() 方法可用于监控语料库中足以触发下游向量化和建模重建的变化。
语料库转换过程包括从原始语料库中流式传输原始文档,经过内容提取、段落划分、句子分割、单词分词和词性标注等阶段,然后将处理后的文档发送到机器学习模型。然而,这种预处理成本较高。对于较小的语料库,或者在可以分配多个虚拟机进行预处理的情况下,像 HTMLCorpusReader 这样的原始语料库读取器可能就足够了。但对于大约 300,000 篇 HTML 新闻文章的语料库,这些预处理步骤花费了超过 12 小时,这不是我们每次运行模型或测试新的超参数时都希望做的事情。
为了解决这个问题,我们添加了两个额外的类:
- Preprocessor 类:包装 HTMLCorpusReader ,将原始语料库处理为中间转换后的语料库工件。
- PickledCorpusReader 类:以标准化的方式从磁盘流式传输转换后的文档,用于下游向量化和分析。
以下是 Preprocessor 类的代码实现: </
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



