背景介绍
结合网上一些相关资料,我们整理输出了这篇文章,本文说明了数据的重要性以及数据在各个环节和领域地位。更重要的是,这篇文章会详尽的讲解数据预处理和特征选择的原理及方法细节。
数据是什么?
-
通过观察、实验或计算得出的结果。例:数字、文字、图像、声音等。
数据分析是什么?
-
把隐藏在数据背后的信息集中和提炼出来
-
总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策
数据在数据分析中的重要性
-
数据分析即数据+分析,也就是说数据为先,分析为后。数据是分析的基础,因此数据的质量、数据的相关度、数据的维度等会影响数据分析的结果。
数据分析流程图

数据预处理
什么是数据预处理?
在特征工程和日志前,检测和去除数据集中的噪声数据和无关数据,处理漏洞数据,去除空白数据。
为什么要做数据预处理?
举例:
-
缺失值;职业=""
-
误差或异常点;工资="-10"
-
包含矛盾;年龄=42,"03/17/1997"
数据预处理的意义?
提高数据的质量,从而有助于提高后续学习过程的精度和性能
数据预处理的重要性
数据预处理很重要,下图告诉你,到底多重要?
数据的特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限
特征处理的思维导图
数据清洗
什么是数据清洗?
删除原始数据集中的无关数据,重复数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值。
造成数据缺失的原因
信息暂时无法获取;信息被遗漏;有些对象的某个或某些属性是不可用的,等等。
缺失的类型
完全随机缺失;随机缺失,非随机缺失
处理缺失值的必要性
挽回丢失的信息;确定性更加显著;得到可靠的输出
常见的数据清理的方式
缺失值处理
-
删除元组
-
均值/中数值/众数插补
-
使用固定值
-
最近邻插补
-
回归方法
-
插值法
异常值处理
-
删除含有异常值的记录
-
视为缺失值
-
平均值修正
-
不处理
偏态分布
更加全面的了解数据分布,使用mode、median、mean三个指标来综合描述数据的分布。对于明显左偏或者右偏的数据来说,使用中位数去描述数据情况比平均数更合理,因为平均数会受极值的影响。
左偏说明长尾在左边,左边有较多的极端数据
许多算法要求样本服从正态分布
正态分布
正态分布
多数频数集中在中央位置,两端的频数分布大概对称
为什么将偏态数据转换为正态分布数据?
很多模型假设数据服从正态分布
为什么正态分布在自然界中常见?
多个因素独立同分布并且可以叠加,那么叠加的结果就会接近正态分布,这就是中心极限定理
中心极限定理
样本的平均值约等于总体的平均值
缺失值处理
①删除元组

②均值/中数值/众数插补
-
空值是数值型或者空值的非数值型的&#