本文来自《Python机器学习 第三版》第四章《构建良好的训练数据集 – 数据预处理》
本文的笔记对应的代码见https://github.com/LittleWhale0531/PythonMachineLearning_3ed/blob/master/ch04/ch04-note.ipynb
目录
2、scikit-learn转换器(transformer) 和估计器(estimator)的区别
1、序数特征(nominal)和 标称(ordinal)特征
一、处理缺失数据
1、方法简介
本节介绍几种处理缺失值得实用技术,包括从数据集删除这些条目或用其他训练样本和特征填充
- 识别缺失值:dataframe的isnull方法
- 删除有缺失值的训练样本或特征:dataframe的dropna方法
- 填补缺失值:均值插补可以调用scikit-learn的SimpleImputer类,用整个特征列的均值来替换缺失值
2、scikit-learn转换器(transformer) 和估计器(estimator)的区别
scikit-learn包含转换器(transformer) 和估计器(estimator)
- 转换器:(左图)fit方法从训练数据中学习参数,transform方法利用这些参数来转换数据,任何需要转换的数据数组,都必须要有与拟合模型的数据数组具有相同数量的特征
- 估计器:(右图)也有fit方法,还有一个predict方法,可能还有transform方法。在监督学习中,可以通过predict方法对新数据样本进行预测。