第三章:定性归纳
从数据分析的角度出发,数据挖掘可以分为两类,描述性数据挖掘和预测性数据挖掘,而接下来要介绍的就是第一种情形,描述性数据挖掘,即以简洁概述的方式表达数据中存在的一些有意义的性质,也称为概念描述,或概要性总结。
概念描述基本知识
数据查询处理负责从数据库中取出数据并在必要时进行一些数据合计处理,而数据挖掘则是对数据进行深度分析并发现隐藏在数据中有意义的模式。最简单的描述性数据挖掘就是定性归纳,通常分为概念描述和对比描述。不同的人常常会基于不同的主观或客观标准需要不同角度或不同抽象水平的概念描述。这里的客观标准一般指描述的简洁性和其所覆盖的范围,主观标准则与用户背景知识以其所涉及的有关信念相关。
数据泛化与概要描述
数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程,主要有数据立方方法(OLAP)和基于属性的归纳方法(AOI)。
数据立方方法被认为是基于数据仓库,预先计算的具体实施方法。该方法在进行OLAP或数据挖掘查询处理之前,就已经完成了离线合计计算。而AOI方法是一种在线数据分析技术方法。虽然离线数据处理与在线数据处理并没有根本的区别。数据立方的合计运算也可以在线计算但是离线预处理运算可以帮助加速基于属性归纳的过程,提高运算速度。OLAP与AOI操作在方法上还是有很大不同的,OLAP中每一步都是由用户指导并控制的,而在AOI中大部分工作都是由归纳进程自动完成并受制于泛化阈值控制,用户只能在自动归纳后进行一些小的调整。
属性相关分析
数据仓库与OLAP工具中的多维数据分析的主要不足之处是无法处理复杂数据对象,第二个不足是不能主动进行泛化操作,而需要用户明确告诉系统定性概念描述中可能包含哪些属性,以及每个属性归纳应该进行到哪一个抽象层次,其中的每一步操作都必须由用户来指定。
属性相关分析的基本思想是针对给定的数据或概念,对相应属性进行计算已获得的若干属性相关参量。这些参量包括:信息增益、Gini值、不确定性和相关系数等。其中信息增益分析在决策树归纳学习中普遍采用。该方法消除信息含量较少的属性,保留信息含量较大的属性以帮助进行概念描述分析。此处以ID3决策树归纳学习方法为例进行介绍。
ID3根据一组给定数据行或训练数据对象(其类别属性已知),来构造一颗决策树,然后利用决策树对未知类别的数据对象进行分类。ID3利用了信息增益的参量来对属性重要性进行评估。具有最大信息增益被认为是当前数据集中具有最大分辨能力的属性。利用该属性构造决策树的一个结点,并在该结点对其所代表属性的所有取值进行测试,以获得决策树的该结点的各个分支,这些分支将原有数据集合划分为若干子数据集。若一个结点所包含的数据行均为同一类别,则该结点就是决策树的叶节点,无需继续进行分支,并被标为相应的类别。这一决策树构造的过程不断重复,直至所有结点均无需继续分支为止。
设S代表一组训练样本集,每个对象的类别已知,共有m个不同类别,即S包含sisi个类别为CiCi的数据行,i∈[1,2,...m]i∈[1,2,...m]. 任何一个对象属于CiCi的概率为pi=si/spi=si/s. 这里s为集合S中所有样本总数。一个决策树可用于对数据对象进行分类,因此决策树可以看成是Ci