一、数据集变换步骤


sklearn中的transformer类,有fit和transform函数
二、Pipline(管道机制)
1. Pipline方法
Pipline将多个estimator级联成一个estimator。这样做考虑了数据处理一系列前后相继的固定流。比如feature extraction ——> normalization ——> classification
- convience 只需调用一次
fit和predict就可以在数据集上训练一组estimators - 联合参数选择(joint parameter selection) 添加
grid search



2. make_pipline方法

三、FeatureUnion
3.1 基本介绍

3.2 用法(与Pipline类似)

设定参数

四、特征抽取(Feature Extraction)

4.1 Loading Features from Dicts
DictVectorizer


4.2 Features hashing


4.3 Text Feature Extraction

本文详细介绍了使用sklearn进行数据预处理的方法,包括数据集变换步骤、管道机制(Pipline)、特征抽取(FeatureExtraction)等核心内容。通过Pipline和FeatureUnion可以高效地进行数据处理和特征工程,实现从特征提取到分类的完整流程。
465

被折叠的 条评论
为什么被折叠?



