
数据处理
zjlamp
这个作者很懒,什么都没留下…
展开
-
数据处理之缺失值处理
缺失值产生的原因:1、有些信息暂时无法获取,或者获取信息的代价太大;2、有些信息是被遗漏的。如认为不重要,忘记填写等人为因素,或数据采集设备故障,存储介质故障,传输媒体故障等非人为的因素;3、属性值不存在。如未婚者的配偶姓名等。4、对数据的缺失值处理之前,进行异常值分析。 缺失值的处理,大致分为三种情况:1、删除法分为两种:(1)删除观测样本,na.omit()...原创 2018-08-01 22:44:04 · 1701 阅读 · 0 评论 -
数据处理之异常值分析、处理
异常值的分析方法1、简单统计量分析做一个描述性统计,进而查看哪些数据不合理。最常用的是最大值和最小值,如年龄的最大值199,则存在异常。2、3σ原则针对服从正态分布的数据,3、箱形图分析(R语言)首先,读取数据集,用sum(),mean()函数来分别获取缺失样本数、缺失比例。saledata <- read.csv(file="catering_sale.c...原创 2018-07-30 21:52:41 · 11541 阅读 · 0 评论 -
数据处理之属性规约(主成分分析)
属性规约的目的是寻找出最小的属性子集,并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。方法包括合并属性、主成分分析等。主成分分析是数据规约(包含属性规约和数值规约)的一种常用方法。用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分分析,当自变量之间不是相互独立时,能够将自变量变换成独立的成分;在自变量太多的情况下,能够...原创 2018-08-06 22:40:12 · 5114 阅读 · 0 评论 -
数据处理之数值规约
数值规约通过选择替代的、较少的数据来减少数据量,包括有参数方法和无参数方法。1、有参数方法。使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,如回归。2、无参数方法。需要存放实际数据。(1)直方图。如一连串的数据,通过绘制直方图(R中用hist()函数绘制直方图),分为“3~15”、“16~28”、“29~41”三个范围。(2)聚类。将对象划分为簇,使一个簇中的对象相互“...原创 2018-08-06 22:53:34 · 5224 阅读 · 0 评论 -
数据处理之标准化
为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,便于进行综合分析。1、最大-最小标准化也称为离差标准化。公式为:2、零-均值标准化也称为标准差标准化。经过处理的数据的均值为0,标准差为1。公式为R语言中可以用scale()函数实现。3、小数定标标准化通过移动数值的小数位数,将数值映射到[-1,1],移动的小数位数取决于数值绝对值的最大值。...原创 2018-08-02 21:19:23 · 1097 阅读 · 0 评论 -
数据处理之连续数据离散化
一些数据挖掘算法,比如Apriori算法等,要求数据是分类属性形式,需要进行连续数据离散化。连续数据离散化就是在数据的取值范围内,设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。离散化涉及两个子任务:1、确定分类数2、将连续属性值映射到这些分类值 举例1,先导入数据,如下:常用的离散化方法:1、等宽...原创 2018-08-02 22:10:53 · 21423 阅读 · 0 评论