1.数据预处理
1.1结构化数据
1.1.1缺失值处理
1.1.1.1直接删除
如果数据不重要且缺失值不多
1.1.1.2补齐
如果数据重要且缺失值不多,想办法搞来
1.1.1.3统计值填充
统计值一般泛指平均值、中位数、众数、最大值、最小值等,具体使用哪一种统计值要根据具体问题具体分析。
比如,填工龄,对年龄分箱求平均值填充
1.1.1.4不处理
缺失值自成一类
1.1.1.5向前向后填充
1.1.1.6插值法填充
1.多项式插值
2.lagrange插值
1.1.1.7预测值填充
1.1.2离群点处理
1.1.2.1标准差法
假设数据服从正态分布,3个标准差之外的数据为离群点,剔除
1.1.2.2MAD法
概念:又称为绝对值差中位数法,是一种先需计算所有因子与中位数之间的距离总和来检测离群值的方法,适用大样本数据

最低0.47元/天 解锁文章
696

被折叠的 条评论
为什么被折叠?



