7、文本预处理与向量化:从语料库到机器学习的关键步骤

文本预处理与向量化:从语料库到机器学习的关键步骤

1. 语料库监控与转换

随着语料库通过摄取、预处理和压缩不断增长, describe() 方法可用于重新计算相关指标,以观察这些指标随时间的变化。这是一种关键的监控技术,有助于诊断应用程序中的问题。机器学习模型期望数据的某些特征(如词汇多样性和每个文档的段落数量)保持一致,如果语料库发生变化,很可能会影响模型性能。因此, describe() 方法可用于监控语料库中足以触发下游向量化和建模重建的变化。

语料库转换过程包括从原始语料库中流式传输原始文档,经过内容提取、段落划分、句子分割、单词分词和词性标注等阶段,然后将处理后的文档发送到机器学习模型。然而,这种预处理成本较高。对于较小的语料库,或者在可以分配多个虚拟机进行预处理的情况下,像 HTMLCorpusReader 这样的原始语料库读取器可能就足够了。但对于大约 300,000 篇 HTML 新闻文章的语料库,这些预处理步骤花费了超过 12 小时,这不是我们每次运行模型或测试新的超参数时都希望做的事情。

为了解决这个问题,我们添加了两个额外的类:
- Preprocessor 类:包装 HTMLCorpusReader ,将原始语料库处理为中间转换后的语料库工件。
- PickledCorpusReader 类:以标准化的方式从磁盘流式传输转换后的文档,用于下游向量化和分析。

以下是 Preprocessor 类的代码实现: </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值