探索性数据挖掘中的主观趣味性
1. 数据挖掘的核心需求与挑战
在当今的数据驱动时代,数据挖掘的重要性不言而喻。然而,传统的探索性数据挖掘方法大多以客观方式定义模式的趣味性,忽略了用户的主观需求,导致挖掘出的模式往往缺乏主观趣味性。为解决这一问题,我们需要一个能将用户纳入考量的主观趣味性量化框架。
2. 主观趣味性量化框架基础
2.1 基本概念定义
- 数据与数据空间 :数据空间记为Ω,数据是其中的元素x。常见的数据类型包括向量空间中的向量集、时间序列、网络、二进制矩阵和多关系数据库等。
- 模式 :模式是限制数据可能取值范围的信息,通过指定数据空间的子集Ω′来定义。若数据x属于Ω′,则称该模式存在于数据中。常见模式如数据的低维投影、聚类、项集等。
- 背景分布 :背景分布P是定义在可测空间(Ω, F)上的概率测度,用于近似用户对数据取值的信念。
- 趣味性度量(IM) :IM是背景分布P和模式Ω′的实值函数I : F × P → R。客观IM与背景模型P无关,主观IM则与之相关。
2.2 理论研究成果总结
2.2.1 数据挖掘过程建模
用户对数据有初始信念状态,在挖掘过程中,当模式被揭示时,用户的信念状态会更新,排除模式不允许的数据取值。数据挖掘系统通过背景分布P来近似用户的信念状态,并在模式揭示后更新。
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



