机器学习(1)-数据预处理

本文介绍了在机器学习中如何处理数据缺失和异常情况,使用Python的Imputer类对数据进行均值、中值或最值填充,并进行数据编码,确保数据的整洁性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在对数据进行分析时,经常会遇到数据缺失或者异常的情况
在这样的数据多的情况下删掉数据终归会对整体造成一定的影响
所以采取对数据进行处理的方法让缺失或者异常的数据有数可用
例如用均值或者最值进行代替
本文便用少量的数据进行分析
下面的数据存在着缺失,数据表示的来自某一些国家的人的年龄,薪资,是否结婚
这里写图片描述
要知道:在python中缺失的数据默认是NaN

首先导入数据文件,设置数据文件的自变量X,因变量y
X取除了最后一列的所有值
y取最后一列的值

dataset=pd.read_csv('Data.csv')
X=dataset.iloc[:,:-1].values #自变量矩阵 
#  iloc是取矩阵的某行某列 除第一列外的所有列
y=dataset.iloc[:,3].values  #取第三列

接着,用Imputer类对缺失数据进行处理
在Imputer类的参数里 mean是指的是均值,median、most_frequent指的是中值和最大值
用fit进行拟合之后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值