目的:
通过检验数据集质量、绘制图标、计算某些特征量等手段,对样本数据集的结构和规律进行分析。
有助于选择合适的数据预处理和建模方法。
1、质量分析
目的:检查脏数据。
脏数据定义:
- 缺失值
- 异常值
- 不一致
- 重复或特殊符号
1.1 缺失值处理:
- 删除
- 插值
- 不处理
插值方法:
- 均值/中位数/众数
- 固定值
- 最相似样本
- 回归
- 函数(拉格朗日、牛顿)
1.2 异常值判断:
- 简单统计
- 正态分布距离平均值3σ之外的概率<=0.003,2σ<=0.05。
- 箱型图
处理:
- 删除
- 视为缺失值
- 不处理
2、特征分析
- 直方图、饼图看分布
- 对比有关联的指标
- 统计量(均值、中位数、标准差、变异系数、4分位间距)
- 周期性
- 贡献度(帕累托法则20/80定律)
- 相关性(散点图、散点矩阵、相关系数)
3、预处理
- 清洗(脏数据)
- 集成(合并数据源)
- 变换(规范化)
- 规约(降维)
3.1 变换
3.1.1 简单函数
目的:非正态=》正态,非平稳=》平稳。 方法:平方、开方、对数变换,差分运算。3.1.2 规范化
- 最大-最小
- 零-均值
- 小数定标
3.1.3 离散化
- 等宽
- 等频
- 聚类
3.1.4 构造新属性
3.1.5 小波变换
4、规约
目的:产生更小但保持数据完整性的新数据集。
横向降维做属性规约。纵向做数值规约。
4.1 属性规约
- 合并属性
- 逐步向前
- 逐步向后
- 决策树
- 主成分分析(sklearn.decompostion.PCA)
4.2数值规约
目的:数据变少或变小
方法:
- 用分组值代替(直方分组、聚类)
- 抽样(直接抽、聚类抽样、按某维度分组抽样)
- 回归,取对数
本文详细介绍数据预处理和分析的全过程,包括质量分析、特征分析、数据预处理及规约的方法和技术。针对脏数据的处理策略,如缺失值、异常值的检测与修正;特征分析手段,例如分布对比、相关性分析;以及数据清洗、变换、离散化等预处理步骤。同时探讨了如何通过降维等技术来规约数据。
1701

被折叠的 条评论
为什么被折叠?



