MATLAB数据分析与挖掘 --数据预处理篇

数据清洗

主要工作是删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值异常值等。

  • 缺失值处理: 一般可删除记录、数据插补和不处理。数据插补常用方法如下:
    插补法
    其中,插值法有Hermite插值、分段插值、样条插值法,而最主要的有拉格朗日插值法和牛顿插值法。
  • 异常值处理: 异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。异常值处理常用方法见下表:
    异常值处理方法

数据集成

数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配的,要考虑实体识别问题和属性是不一的,不一定是匹配的,要考虑实体识别问题属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。

  • 实体识别: 检测和解决同名异义、异名同义、单位不统一的冲突。
  • 属性冗余识别: 主要是解决诸如同一属性多次出现和同一属性命名不一致导致重复的问题, 不同源数据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个属性。

数据变换

主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。常有简单函数变换规范化连续属性离散化属性构造小波变换等。以下做各自的说明。

  • 简单函数变换: 就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等。常用来将不具有正态分布的数据变换成具有正态分布的数据;在时间序列分析中,有时简单的对数变换或者差分运算就可以将非平稳序列转换成平稳序列。
  • 规范化:数据归一化(标准化),是处理数据挖掘的一项基本工作,主要是为了消除指标间的量纲和取值范围差异的影响,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。而且数据规范化对于基于距离的挖掘算法尤为重要。通常方法有最小-最大规范化零-均值规范化小数定标规范化
    (1)连续属性离散化: 也即离差标准化,公式如下:
    x∗=x−minmax−minx^*=\frac{x-min}{max-min}x=maxminxmin
    其中,maxmax
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值