看了较多的关于粗糙集的参考文献后发现上面的定理和性质都比较的难以理解,也是因为这个重要原因让许多人对于数据挖掘和粗糙集望而却步,但是在我看来其实还是可以整理出一些比较通俗易懂的关于粗糙集的知识的:
1.关于粗糙集的用途
粗糙集是用来处理不确定信息
不确定性按性质划分:
1) 随机性.
例:明天可能会下雨
2) 模糊性:
模糊性就是一个命题中所出现的某些言词概念上无明确的内涵和外延。模糊现象是指边界不清楚,在质上没有确定性的含义,在量上没有确切界限的事物的一种客观属性,是事物之间的差异存在一定的中间过渡的结果.
例:这孩子是个聪明的孩子
3) 不完全性:
例:在炒股票中.
4) 不一致性:
相同原因产生不一样的结果
5) 时变性:
随着时间会改变的事物
一些基本术语
论域:
数学定义是:U={U1,U2,…,Um}
解释:所要处理的所有对象(在数据库中即是所有数据)的总和
例:例如,对于货票集合来说,其任意子集称为一个概念。根据运输距离对货票
进行分类,可以形成不同的概念:
概念1:运距在500公里(含500公里)以下的货票;
概念2:运距在500公里-1500公里(含1500公里)间的货票;
概念3:运距在1500公里以上的货票。
对于上例来说U就是货票集合,它由价格分成了3个概念即类(U1,U2,U3)
粗糙集理论建立在这样一个前提上:即所考虑的论域中的每一个对象都包含某种信息(数据和知识)。
条件属性集:
数学定义是:P={P1,P2,…,Pm}
解释:就是对象的各种属性总和(也就是数据库中的字段)
Pm 就是这个对象的一个属性
基本集(基本粒度):
定义:所有不可区分的对象形成的集合
解释:可区分(可分辨):如果Ui ≠Uj 就称这两个对象在其条件P下是可区分的(对于两个不同的对象至少有一个属性是不同的)否则即为不可区分
例:
U
|
P
|
1
|
1
|
2
|
0
|
3
|
0
|
4
|
2
|
对于上表来说,U中有四个对象(概念),而现在条件集合中只有一个属性,对于U1和U2来说,它们的p不同所以可以通过p来区分,即u1,u2在p下可区分;而U2和U3虽然是不同的对象但是在P下却是相同的,即在p下不可区分,就成为不可区分
粗糙集:
一个集合若恰好等于基本集的任意并集称为一个清晰(crisp)集(精确集),否则称为粗糙(rough)集(不精确集)。
解释:都可区分的是清晰集,有不可区分的对象为粗糙集
小结
主要特点:以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力.
粗糙集体现了集合中元素间的不可区分性.
主要优势:它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其它不确定性问题的理论有很强的互补性.