python数据挖掘笔记(1)—数据预处理

本文介绍数据挖掘前的数据预处理步骤,包括数据清洗、数据集成、数据变换和数据规约等关键环节。详细讨论了缺失值处理、异常值处理、简单函数变换、规范化、属性构造等多种方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据清洗
1.缺失值处理
均值,中位数,众数插补
使用固定值
最近邻插补
回归方法
插值法(拉格朗日插值法,lagrange();牛顿插值法;样条插值法,等等)
2.异常值处理
删除含有异常值的记录
视为缺失值
平均值修正
不处理(是在引起异常的原因正常的情况下)
二、数据集成
数据挖掘需要的数据往往分布在不同的数据源里,数据集成就是把多个数据源合并到一个一致的数据存储。
三、数据变换
1.简单函数变换
如可把不具有正态分布的数据变换成正态分布的数据
简单的对数变换或差分变换可以把非平稳序列变成平稳序列
可使用对数变换将大区间数据压缩变换成小区间数据
2.规范化
最小-最大规划化,也称离差标准化,将数据映射到[0,1]之间
零-均值规范化,也称标准差标准化,处理后数据均值为0,标准差为1
小数定标规范化
通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。
3.连续属性离散化
就是再数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。
等宽法
等频法
基于聚类分析的方法
4.属性构造
利用已有属性集构造新的属性。
5.小波变换
小波变换的方法在信号处理,图像处理,语音处理,模式识别,量子物理等领域都有广泛的应用
小波基函数是一种具有局部支集的函数,且平均值为0,小波基函数满足
四、数据规约
在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集,在规约后的数据集上进行分析和挖掘更有效率。
1.属性规约
属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从而提高数据挖掘效率,降低计算成本。主要方法有:
合并属性
逐步向前选择
逐步向后删除
决策树归纳
主成分分析 from sklearn.decomposition import PCA
2.数值规约
数值规约通过选择替代的,较小的数据来减少数据量。主要方法有:
有参数方法:只需存放参数,不需要存放实际数据
线性回归
多元回归
对数线性模型
无参数方法:需要存放实际数据
频率直方图
聚类
抽样
【为什么学习数据挖掘】       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。      从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。【超实用的课程内容】      本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决数据挖掘问题,为进一步深入学习数据挖掘打下扎实的基础。本课程分为三大部分:基础知识篇:主要讲解数据挖掘这项技能的基本工作流程和介绍和入门必须的基本技能Python语言的入门,带领大家了解数据挖掘的常见操作和基础知识。数据采集篇:学习如何解决数据挖掘数据来源问题,读取各类型不同的数据包括CSV,excel,MySQL进行数据采集的交互。数据探索篇:本篇主要解决数据预处理保证数据的质量并用常见数据挖掘算法进行特征提取,分析数据背后隐含的信息。【报名须知】课程采取录播模式,课程永久有效,可无限次观看课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化【如何开始学习?】PC端:报名成功后可以直接进入课程学习移动端:下载优快云学院或优快云
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值