(原创)python使用小记2-异常数据的处理

本文介绍如何使用Python的pandas库处理数据集中的异常值,包括通过插值方法填充缺失值(NaN)及对离散特征进行one-hot编码。对于缺失值,可根据数据索引类型选择不同的插值方法;而对于离散特征,则可通过one-hot编码将其转换为数值型数据。

注:文件中的异常包括描述性数据(特征)、缺失值(NAN)、

在这里的解决方法是借用pandas库
interpolate()使用插值来估计NaN 如果index是数字,可以设置参数method='value' ,如果是时间,可以设置method='time'
get_dummies对离散型特征进行one-hot编码

举例说明:
插值 是取前后两值的平均值作为该空位(NAN)的值
离散值特征的编码 假如某一列的特征名称是国家(有两个取值中国和美国 ),那么我们在用one-hot编码时,会从这一列数据演变出两列数据,一列为中国,另一列为美国,然后用0-1编码表示某一行数据属于中国还是美国。

转载于:https://www.cnblogs.com/rayshaw/p/8640099.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值