机器学习中的数据预处理方法

本文来自《Python机器学习 第三版》第四章《构建良好的训练数据集 – 数据预处理》

本文的笔记对应的代码见https://github.com/LittleWhale0531/PythonMachineLearning_3ed/blob/master/ch04/ch04-note.ipynb

目录

一、处理缺失数据

1、方法简介

2、scikit-learn转换器(transformer) 和估计器(estimator)的区别

二、处理类别数据

1、序数特征(nominal)和 标称(ordinal)特征

三、划分训练数据集和测试数据集

四、保持相同的特征缩放

五、选择有意义的特征


一、处理缺失数据

1、方法简介

本节介绍几种处理缺失值得实用技术,包括从数据集删除这些条目或用其他训练样本和特征填充

  • 识别缺失值:dataframe的isnull方法
  • 删除有缺失值的训练样本或特征:dataframe的dropna方法
  • 填补缺失值:均值插补可以调用scikit-learn的SimpleImputer类,用整个特征列的均值来替换缺失值
2、scikit-learn转换器(transformer) 和估计器(estimator)的区别

scikit-learn包含转换器(transformer) 和估计器(estimator)

  • 转换器:(左图)fit方法从训练数据中学习参数,transform方法利用这些参数来转换数据,任何需要转换的数据数组,都必须要有与拟合模型的数据数组具有相同数量的特征
  • 估计器:(右图)也有fit方法,还有一个predict方法,可能还有transform方法。在监督学习中,可以通过predict方法对新数据样本进行预测。

二、处理类别数据

序数特征(nominal)和
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值