数据预处理和特征选择

背景介绍

结合网上一些相关资料,我们整理输出了这篇文章,本文说明了数据的重要性以及数据在各个环节和领域地位。更重要的是,这篇文章会详尽的讲解数据预处理和特征选择的原理及方法细节。

数据是什么?

  • 通过观察、实验或计算得出的结果。例:数字、文字、图像、声音等。

数据分析是什么?

  • 把隐藏在数据背后的信息集中和提炼出来

  • 总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策

数据在数据分析中的重要性

  • 数据分析即数据+分析,也就是说数据为先,分析为后。数据是分析的基础,因此数据的质量、数据的相关度、数据的维度等会影响数据分析的结果。

数据分析流程图

数据预处理

什么是数据预处理?

在特征工程和日志前,检测和去除数据集中的噪声数据和无关数据,处理漏洞数据,去除空白数据。

为什么要做数据预处理?

举例:

  1. 缺失值;职业=""

  2. 误差或异常点;工资="-10"

  3. 包含矛盾;年龄=42,"03/17/1997"

数据预处理的意义?

提高数据的质量,从而有助于提高后续学习过程的精度和性能

数据预处理的重要性

数据预处理很重要,下图告诉你,到底多重要?

数据的特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限

特征处理的思维导图

数据清洗

什么是数据清洗?

删除原始数据集中的无关数据,重复数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值。

造成数据缺失的原因

信息暂时无法获取;信息被遗漏;有些对象的某个或某些属性是不可用的,等等。

缺失的类型

完全随机缺失;随机缺失,非随机缺失

处理缺失值的必要性

挽回丢失的信息;确定性更加显著;得到可靠的输出

常见的数据清理的方式

缺失值处理

  1. 删除元组

  2. 均值/中数值/众数插补

  3. 使用固定值

  4. 最近邻插补

  5. 回归方法

  6. 插值法

异常值处理

  1. 删除含有异常值的记录

  2. 视为缺失值

  3. 平均值修正

  4. 不处理

偏态分布

更加全面的了解数据分布,使用mode、median、mean三个指标来综合描述数据的分布。对于明显左偏或者右偏的数据来说,使用中位数去描述数据情况比平均数更合理,因为平均数会受极值的影响。

左偏说明长尾在左边,左边有较多的极端数据

许多算法要求样本服从正态分布

正态分布

正态分布

多数频数集中在中央位置,两端的频数分布大概对称

为什么将偏态数据转换为正态分布数据?

很多模型假设数据服从正态分布

为什么正态分布在自然界中常见?

多个因素独立同分布并且可以叠加,那么叠加的结果就会接近正态分布,这就是中心极限定理

中心极限定理

样本的平均值约等于总体的平均值

缺失值处理

①删除元组

②均值/中数值/众数插补

  • 空值是数值型或者空值的非数值型的&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值