数据分析与数据挖掘实践(6)--数据清洗

本文探讨了数据预处理中的抽样、异常值处理及特征工程的重要性,包括特征选择、特征变换与降维等关键步骤,旨在提升机器学习模型的性能。

数据样本抽样

样本具有代表性(比例保持一致)
样本比例平衡以及样本不平衡时如何处理
尽量使用全量数据Hadoop spark

1.异常值(空值)处理

1.识别异常值和重复值
Pandas:isnull()/duplicated
2.直接丢弃
Pandas:drop()/dropna()/drop_duplicated()
3.异常值(空值)处理
当是否有异常当作一个新的属性,代替原值
Pandas:fillna()
4.集中值指代
Pandas:fillna()
5.边界值指代
Pandas:fillna()
6.差值
Pandas:interpolate()–Series

2.特征与处理–标注(Label)

反应目的的,不容易获得的,我们关注的,和其他数据相关的属性。

特征选择

剔除与标注不相关或者冗余的特征
1.数据规约的思路之一(另一个思路为抽样)
特征选择(之前有讲过)
2.包裹思想(RFE算法)
在这里插入图片描述
在这里插入图片描述
嵌入思想
在这里插入图片描述

特征变换

对值化,离散化,数据平滑,归一化(标准化),数值化,正规化

特征降维
特征衍生
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值