数据挖掘原理与实践学习(2)

大家好,我又回来啦!在本文中,我将对《数据挖掘原理与实践》的第二章《数据处理基础》进行总结和归纳,希望大家多多支持,谢谢!


什么是数据?

数据是数据库存储的基本对象。并非说单纯的1、2、3等数字才是数据,数据的内涵随着时间的推移而扩展。

广义地,可以把数据理解为记录在介质中的信息,是数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像或计算机代码等。

理解数据不仅要了解数据的表现形式,还需要了解数据的语义。数据的语义是指对数据含义的说明,是数据对象所有属性的集合。而数据集则是具有相同属性的数据对象的集合。属性(也称为特征、维或字段)是指一个对象的某方面性质或者特性。一个对象通过若干属性来刻画。

相应的,根据属性具有的不同性质,属性可以分为4种:标称(Nominal)、序数(Ordinal)、区间(Interval)和比率(Ratio)。

  1. 标称属性:其属性值只提供足够的信息以区分对象,这类属性值没有实际意义,如三个对象可以用甲乙丙,也可以用ABC来区分。
  2. 序数属性:其属性值提供足够的信息,以区分对象的序,如成绩等级(优、良、中、及格、不及格)。
  3. 区间属性:起属性值之间的差是有意义的,如日历日期、摄氏温度。
  4. 比率属性:其属性值之间的差和比率都是有意义的,如长度、时间、速度等。

而属性可以进一步归类为两种:

①标称和序数属性:统称为分类的(Categorical)或定性的(Qualitative)属性,取值为集合。

②区间和比率属性:统称为数值的(Numeric)或定量的(Quantitative)属性,取值为区间。*定量属性可以是整数值或者连续值。

数据集的类型

先说一下数据集的三大特性,接着总结数据集的类型。

数据集三大特性:

  1. 维度(Dimensionality):指数据集中的对象具有的属性个数总和。根据数据集的维度大小,数据集可以分为高、中、低维数据集。
  2. 稀疏性(Sparsity):指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0,非零项不到1%。
  3. 分辨率(Resolution):可以在不同的分辨率或者粒度下得到数据,而且在不同的分辨率下对象的性质也不同。数据的模式依赖于分辨率,分辨率过高或者过低,都得不到有效的模式,针对具体应用,需要选择合适的分辨率或粒度。

为了方便起见,我们将数据集分为三类:记录数据、基于图形的数据和有序的数据集。

(1)记录数据

一般的数据挖掘任务都是假定数据集是记录(数据对象)的集合,每个记录都由相等数目的属性构成。记录之间或属性之间没有明显的联系。记录数据通常存放在平面文件或关系数据库中。根据数据挖掘任务的不同要求,记录数据可以有不同种类的变体。

①事物数据(购物篮数据)

事物数据是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。

②数据矩阵(Data Matrix)

如果一个数据集中的所有数据对象都具有相同的数值属性集,则该数据对象可以看做多维空间的点(向量),其中每一维代表描述对象的不同属性。这样的数据对象集可以用一个n×m的矩阵来表示,其中n表示行数,一个对象一行,m表示列数,一个属性一行(当然可以反过来)。数据矩阵是记录数据的变体,可以使用标准的矩阵操作对数据进行变换和操纵。

(2)基于图形的数据

有时,图形可以方便而有效地表示对象之间的关系。我们考虑两种特殊情况:图形捕获数据对象之间的联系,数据对象本身用图形表示。

①带有对象之间联系的数据:对象之间的联系常常携带重要的信息。

②具有图形对象的数据:如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图表示。

(3)有序数据

对于某些数据类型,属性具有涉及时间或空间序的联系。

①时序数据(sequential data)或时态数据(temporal data),可以看做记录数据的扩充,其中每个记录包含一个与之相关的时间,通常存放包含时间相关属性的关系数据。这些数据可能涉及若干时间标签,每个都有不同意义。

②序列数据(sequence data),是一个数据集合,是个体项的序列,如词或字母的序列,用来存放具有或者不具有具体时间概念的有序时间的序列。

③时间序列数据(time series data),是一种特殊的时序数据,其中每个记录都是一个时间序列,即一段时间的测量序列,如股票交易,库存控制和自然现象等。在分析事假序列数据时,重要的是考虑时间自相关,即如果两个测量的时间很接近,侧这些测量的值非常相似。

④空间数据(spatial data),包含涉及空间的数据,如地理信息系统、医学图像等。

⑤流数据(stream data),是一种可以动态地从观测台流进和流出的数据,具有如下特点:海量甚至是无限的,动态变化的,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速响应时间。

数据统计特性

对于许多数据预处理任务,人们希望知道关于数据的中心趋势和离散程度特征。中心趋势度量包括均值、中位数、众数和中列数(midrange),数据离散程度度量包括四分位数(quartiles)、四分位数极差(interquartiles,IQR)和方差(variance)等。

数据的中心度量

均值:设x_{1},x_2,...,x_N是N个值的集合,则该值集的均值定义为:

                             \bar{x}=\tfrac{\sum_{i=1}^{N}x_{i} }{N}=\tfrac{x_{1}+x_{2}+...+x_{N}}{N}

有时,集合中每个值x_{i}与一个权值w_{i}相关联,i=1,......,N。权值反映对应值的显著性、重要性或者出现频率。这时就应当使用加权平均数(weighted arithmetic mean):

尽管均值是描述数据集的最常用的单个度量方法,但是均值的主要问题是对极端值(如离群值)很敏感,即使少量极端值也可能影响均值。在这里推荐大家使用截断均值:

截断均值:指定0~100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得结果即是截断均值。标准均值是对应于p=0%的截断均值。

中列数(midrange)也可以用来评估数据集的中心趋势,是数据集的最大和最小值的平均值。

而百分位数(percentile)则有如下性质:

在数值序下,数据集合的第k个百分位数是具有如下性质的x_{i}:百分之k的数据项位于或低于x_{i}。中位数是第50个百分位数。除中位数外,最常用的百分位数是四分位数(quartile)。第一个四分位数记为Q_{1},是第25个百分位数;第三个四分位数记为Q_{3},是第75个百分位数。四份位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,给出被数据的中间一半所覆盖的范围。该距离被称为中间四分位数极差IQR,定义为IQR=Q_{3}-Q_{1}

数据散布程度度量

最简单的散布度量是极差(range),其定义为最大值和最小值之间的差异。给定一个属性x,它具有m个值{x_{1},x_{2},...,x_{m}},x的极差定义为:

         range(x)=max(x)-min(x)=x_{m}-x_{1}

尽管极差标识极大散布,但是如果大部分值都击中在一个较窄的范围内,极端值的个数相对较少,则可能引起误解。此时采用方差作为方差作为散布的度量更可取。属性x的方差记为S_{x}^{2},其定义如下:

       variance(x)=S_{x}^{2}=\tfrac{1}{m-1}\sum_{i=1}^{m}(x-\bar{x})^{2}


以上就是第二章的前面的内容,在数据结构(3)会讲解数据预处理、相似性度量这两个重头大戏,并且会有习题,希望大家能够多多支持。

系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理、算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘的原理和算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。
整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几个板块组成,所以学员可以按照自己的实际情况选择学习。例如,对于只需要了解hadoop基本编程的人,只需要选择“hadoop源码解析企业应用开发实战”模块就可以了;对于立志于从事大数据领域的零起点人员,可以选择四个板块依次学习;对于已经有一定基础的hadoop开发人员,你可以根据自己的情况,选择学习模块,而不必4个板块从头开始学。 特点1:真正做到从0开始,从入门到精通 特点2:适合不同基础的学员学习 特点3:阶梯式课程,每个阶段都有明确的主题和目标 第1周 数据分析基础 要点 数据分析流程、方法论(PEST、5W2H、逻辑树)、基础数据分析方法、数据分析师能力层级、数据的度量、探索、抽样、原理及实际操作,结合SPSS工具使用 第2数据挖掘基础 要点(数据挖掘概念、流程、重要环节、基础数据处理方法(缺失值、极值)、关联性分析方法(相关分析、方差分析、卡方分析)、原理及实际操作 第3周 数据挖掘工具介绍及Modeler软件使用 要点 使用Modeler,实际数据操作,为后续课程准备) 第4周 挖掘-分类 要点(决策树 C5.0、逻辑回归,最常用的二种算法,原理及实际建模操作) 第5周 挖掘-聚类 要点(层次聚类、kmeans)、挖掘-关联(Apriori),挖掘-预测(线性回归,指数平滑,移动平均), 原理及实际建模操作 第6周 数据挖掘实战 要点(以目标客户挖掘为例,从业务分析、方案制定、数据处理、数据准备、变量筛选、建模、评测、部署各个环节,使用Modeler工具,讲述建模的全过程)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值