ML - 特征工程

1.数据预处理

1.1结构化数据

1.1.1缺失值处理

1.1.1.1直接删除

如果数据不重要且缺失值不多

1.1.1.2补齐

如果数据重要且缺失值不多,想办法搞来

1.1.1.3统计值填充

统计值一般泛指平均值、中位数、众数、最大值、最小值等,具体使用哪一种统计值要根据具体问题具体分析。
比如,填工龄,对年龄分箱求平均值填充

1.1.1.4不处理

缺失值自成一类

1.1.1.5向前向后填充
1.1.1.6插值法填充

1.多项式插值
2.lagrange插值

1.1.1.7预测值填充

1.1.2离群点处理

1.1.2.1标准差法

假设数据服从正态分布,3个标准差之外的数据为离群点,剔除

1.1.2.2MAD法

概念:又称为绝对值差中位数法,是一种先需计算所有因子与中位数之间的距离总和来检测离群值的方法,适用大样本数据

1.1.2.3箱型图法

1.1.3数据去量纲

1.1.3.1极差标准化
1.1.3.2极大值标准化
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值