数据泛化与概念描述的属性导向归纳方法
1. 数据泛化与概念描述概述
数据泛化是将相对低级的值(如年龄属性的数值)替换为高级概念(如年轻、中年和老年)来总结数据。概念描述是数据泛化的一种形式,它不是简单地枚举数据,而是生成用于数据特征化和比较的描述。特征化提供给定数据集的简洁总结,而概念或类比较则提供两个或多个数据集之间的比较描述。
传统的数据立方体(OLAP)方法在进行概念描述时存在一些局限性:
- 复杂数据类型和聚合 :许多当前的OLAP系统将维度限制为非数值数据,将度量限制为数值数据。但实际数据库中可能包含各种数据类型的属性,如数值、非数值、空间、文本或图像,并且属性的聚合可能涉及复杂的数据类型。因此,OLAP是一种简化的数据模型,概念描述应能处理属性的复杂数据类型及其聚合。
- 用户控制与自动化 :数据仓库中的在线分析处理是用户控制的过程,用户需要对每个维度有较好的理解,并可能需要指定一长串OLAP操作来找到满意的数据描述。因此,需要一个更自动化的过程来帮助用户确定分析中应包含哪些维度,以及给定数据集应泛化的程度。
2. 属性导向归纳(AOI)方法
2.1 属性导向归纳的基本思想
属性导向归纳(AOI)方法最早于1989年提出,它是一种基于查询、基于泛化的在线数据分析技术。其基本思想是首先使用数据库查询收集与任务相关的数据,然后根据相关数据集中每个属性的不同值的数量进行泛化。泛化通过属性移除或属性泛化来实现,聚合通过合并相同的泛化元组并累积其相应的计数来完成,从而减少泛化数据集的大小。最终的泛化关系可以映射为不同的形式呈现给用户,如