粗糙集理论相关基本概念及属性约简

本文探讨了粗糙集理论与数据挖掘的紧密联系,指出粗糙集为数据挖掘提供新方法,适用于关系型数据库,能处理不确定性知识,排除噪声,支持并行执行,提高大规模数据库的知识发现效率,自动选择属性集,且决策规则易于验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

粗糙集理论和数据挖掘的关系

1.Rough集的基本概念

2.属性约简


粗糙集理论和数据挖掘的关系

Rough set理论和数据挖掘关系密切,它能为数据挖掘提供新的方法和工具,且具有以下特点:

首先,数据挖掘研究的对象多为关系型数据库。关系表可以看作为Rough Set理论中的决策表,这给Rough Set导出的方法的应用带来极大的方便。

第二,现实世界中的规则有确定性的,也有不确定性的。从数据库中发现不确定性的知识,为Rough Set导出的方法提供了用武之地。

第三,从数据中发现异常,排除知识发现过程中的噪声干扰,也是Rough Set导出的方法的特长。

第四,运用Rough Set导出的知识发现算法有利于并行执行,可以极大地提高发现效率。对于大规模数据库中的知识发现来说,正是求之不得的。

第五,数据挖掘中采用的其他技术,如神经网络的方法,不能自动地选择合适的属性集,而利用Rough Set导出的方法进行预处理,去掉多余属性,可提高发现效率,降低错误率。

第六,Rough Set方法比模糊集方法或神经网络方法在得到的决策规则和推理过程更易于被证实和检测。

1.Rough集的基本概念

粗糙集是一种可以定量分析处理不精确不一致不完整 信息与知识的数学工具

信息表是一个二维表格,其每一行是一个元组,对应现实世界的一个个体。其每一列代表信息空间的一维。如表1.1

实例是信息表中的一行,在表1.1中标记为e1,e2,e3,e4,e5,e6。

表1.1
个体编号条件属性决策
头疼肌肉疼体温
e1正常
e2
e3很高
e4正常
e5
e6很高

设M为信息表,则M的形式化描述为:

M = \left ( U,At,\left \{ V_{a}\mid a\in At \right \}, \left \{ I_{a} \mid a\in At\right \}\right )

U = {x1, x2, ..., xn} : 有限对象集合,又称:论域

At = {头疼,肌肉疼,体温,流感}:有限非空的属性集合。

Va: 表示属性a ∈ A的属性值范围,即属性a的值域。

Ia: U → Va: 是一个信息函数;Ia(x)代表对象x在属性a的取值(属性值)。

不分明关系

在给定的论域U上,任意选择一个等价关系集R和R的子集P\subseteq R,且P\neq \varnothing,则P中所有等价关系的交际依然是论域U中的等价关系,称该等价关系为P的不可分辨关系,记作IND(P)。并且\forall x\subseteq U,\left [ x \right ]_{IND\left ( P \right )}= \left [ x \right ]_{P}= \bigcap_{\forall R\subseteq P}\left [ x \right ]_{R}

如:考虑条件属性头疼和肌肉疼。对于e1,e2,e3这三个实例,其条件属性头疼的值都是“是”,条件属性肌肉疼的值也都是“是”,因此,从条件属性头疼和肌肉疼的角度来看,这三个实例是不可分辨的。

基本集

\bigcup IND(P) 表示非空子族集P\subseteq R所产生的不分明关系IND(P)的所有等价类关系的集合,又称该知识为知识库K= \left \langle U,R \right \rangle中关于P-基本知识(P-基本集)

如:从条件属性头疼和肌肉疼的值来看,不分明集{e1,e2,e3}、{e4,e6}和{e5}被称为基本集。

可定义集

任意有限个基本集的并被称之为可定义集。

可定义

X\subseteq U,当X能用属性子集B确切地描述(即是属性子集B所确定地U上的不分明集的并)时,称X是B可定义的,否则称X是B不可定义的。B可定义集也称作B精确集,B不可定义集也称为B非精确集或B Rough集。

上下近似

上近似包含了所有那些可能是属于X的元素,下近似包含了所有使用知识R可确切分类到X的元素。

给定知识库K= \left \langle U,R \right \rangle中,任意选择集合X\subseteq U,可定义X关于知识R的上下近似

上近似:R^{-}\left ( X \right )= \left \{ x\mid \left ( \forall x\subseteq U \right ) \wedge \left (\left [ x \right ]_{R} \right \cap X\neq \varnothing )\right \}= \bigcup \left \{ Y\mid \left ( Y\in U/R \right ) \wedge \left ( Y\cap X\neq \varnothing \right )\right \}

下近似:R_{-}\left ( X \right )= \left \{ x\mid \left ( \forall x\subseteq U \right ) \wedge \left (\left [ x \right ]_{R} \right \subseteq X )\right \}= \bigcup \left \{ Y\mid \left ( Y\in U/R \right ) \wedge \left ( Y\subseteq X )\right \}

X的边界域、正域和负域

边界域:BN_{R}\left ( X \right )= R^{-}\left ( X \right )-R_{-}\left ( X \right )

正域:POS_{R}\left ( X \right )= R_{-}\left ( X \right )

负域:NEG_{R}\left ( X \right )= U-R^{-}\left ( X \right )

R^{-}\left ( X \right )=POS_{R}\left ( X \right )\cup BN_{R}\left ( X \right )

2.属性约简

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值