目录
粗糙集理论和数据挖掘的关系
Rough set理论和数据挖掘关系密切,它能为数据挖掘提供新的方法和工具,且具有以下特点:
首先,数据挖掘研究的对象多为关系型数据库。关系表可以看作为Rough Set理论中的决策表,这给Rough Set导出的方法的应用带来极大的方便。
第二,现实世界中的规则有确定性的,也有不确定性的。从数据库中发现不确定性的知识,为Rough Set导出的方法提供了用武之地。
第三,从数据中发现异常,排除知识发现过程中的噪声干扰,也是Rough Set导出的方法的特长。
第四,运用Rough Set导出的知识发现算法有利于并行执行,可以极大地提高发现效率。对于大规模数据库中的知识发现来说,正是求之不得的。
第五,数据挖掘中采用的其他技术,如神经网络的方法,不能自动地选择合适的属性集,而利用Rough Set导出的方法进行预处理,去掉多余属性,可提高发现效率,降低错误率。
第六,Rough Set方法比模糊集方法或神经网络方法在得到的决策规则和推理过程更易于被证实和检测。
1.Rough集的基本概念
粗糙集是一种可以定量分析处理不精确、 不一致、不完整 信息与知识的数学工具。
信息表是一个二维表格,其每一行是一个元组,对应现实世界的一个个体。其每一列代表信息空间的一维。如表1.1
实例是信息表中的一行,在表1.1中标记为e1,e2,e3,e4,e5,e6。
个体编号 | 条件属性 | 决策 | ||
头疼 | 肌肉疼 | 体温 | ||
e1 | 是 | 是 | 正常 | 否 |
e2 | 是 | 是 | 高 | 是 |
e3 | 是 | 是 | 很高 | 是 |
e4 | 否 | 是 | 正常 | 否 |
e5 | 否 | 否 | 高 | 否 |
e6 | 否 | 是 | 很高 | 是 |
设M为信息表,则M的形式化描述为:
U = {x1, x2, ..., xn} : 有限对象集合,又称:论域
At = {头疼,肌肉疼,体温,流感}:有限非空的属性集合。
Va: 表示属性a ∈ A的属性值范围,即属性a的值域。
Ia: U → Va: 是一个信息函数;Ia(x)代表对象x在属性a的取值(属性值)。
不分明关系
在给定的论域U上,任意选择一个等价关系集R和R的子集,且
,则P中所有等价关系的交际依然是论域U中的等价关系,称该等价关系为P的不可分辨关系,记作IND(P)。并且
如:考虑条件属性头疼和肌肉疼。对于e1,e2,e3这三个实例,其条件属性头疼的值都是“是”,条件属性肌肉疼的值也都是“是”,因此,从条件属性头疼和肌肉疼的角度来看,这三个实例是不可分辨的。
基本集
表示非空子族集
所产生的不分明关系IND(P)的所有等价类关系的集合,又称该知识为知识库
中关于P-基本知识(P-基本集)
如:从条件属性头疼和肌肉疼的值来看,不分明集{e1,e2,e3}、{e4,e6}和{e5}被称为基本集。
可定义集
任意有限个基本集的并被称之为可定义集。
可定义
令,当X能用属性子集B确切地描述(即是属性子集B所确定地U上的不分明集的并)时,称X是B可定义的,否则称X是B不可定义的。B可定义集也称作B精确集,B不可定义集也称为B非精确集或B Rough集。
上下近似
上近似包含了所有那些可能是属于X的元素,下近似包含了所有使用知识R可确切分类到X的元素。
给定知识库中,任意选择集合
,可定义X关于知识R的上下近似
上近似:
下近似:
X的边界域、正域和负域
边界域:
正域:
负域:
2.属性约简