近年来,数据采掘研究多针对于关系数据库,但是空间数据库系统的发展为我们提供了丰富的空间数据,为数据分析和知识发现展示了广阔的前景。空间数据挖掘技术帮助人们从庞大的空间数据中抽取有用信息。由于空间数据的数量庞大及空间问题的特殊性,因此发现隐含在空间数据中的特征和模式,已成为空间数据库的一个重要问题。现已在GIS 系统、图像数据库等领域得到了广泛应用。
空间数据采掘的方法包括:
1.归纳方法
基于归纳方法的空间数据采掘算法必须由用户预先给定或系统自动生成概念层次树 ,发现的知识依赖于层次树结构,计算复杂性为O(logN),N为空间数据个数。
2.聚集方法
基于聚集方法的空间数据挖掘算法包括CLARANS、BIRCH、DBSCAN等算法。
3.统计信息网格算法(STING)
该方法是一个查询无关算法,每个节点存储数据的统计信息,可处理大量的查询。算法采用增量修改,避免数据更新造成的所有单元重新计算,而且易于并行化。
4. 空间聚集和特征邻近关系采掘
(1)发现集合邻近关系:给定一个点的聚集,找到聚集的K个最邻近特征。CRH算法寻找集合邻近关系,它是Circle、Isothetic Rectangle和Convex Hull的首字母缩写形式。C RH用筛选器逐步减少特征个数,直至找到K个最接近特征。在SPARC-10工作站上的实验结果表明,CRH作为一种近似算法,得出的结果相当精确,它能在约1秒CPU时间内从5000个特征中找到最近的25个。
(2)发现集合邻近的共性:给定N个聚集,找到与全部或大多数聚集最接近的公共特征类,即出现在同一分类中的相似特征,例如发现所有居民区都与中学相近,而不一定是同一所中学。Gencom 算法从N个聚集的N个最近K个特征的集合中抽取集合邻近公共特征。
数据采掘的工具
目前,国外有许多研究机构、公司和学术组织从事数据采掘工具的研制和开发。这些工具主要采用基于人工智能的技术,包括决策树、规则归纳、神经元网络、可视化、模糊建模、簇聚等,另外也采用了传统的统计方法。这些数据采掘工具差别很大,不仅体现在关键技术上,还体现在运行平台、数据存取、价格等方面。
数据采掘工具可根据应用领域分为三类:
(1)通用单任务类:仅支持KDD的数据采掘步骤,并且需要大量的预处理和善后处理工作。主要采用决策树、神经网络、基于例子和规则的方法,发现任务大多属于分类范畴。
(2)通用多任务类:可执行多个领域的知识发现任务,集成了分类、可视化、聚集、概括等多种策略,如Clementine、IBM Intelligent Miner、SGI Mineset。
(3)专用领域类:现有的许多数据采掘系统是专为特定目的开发的,用于专用领域的知识发现,对采掘的数据库有语义要求,发现的知识也较单一。如Explora用于超市销售分析 ,仅能处理特定形式的数据,知识发现也以关联规则和趋势分析为主。另外发现方法单一 ,有些系统虽然能发现多种形式的知识,但基本上以机器学习、统计分析为主,计算量大。
根据所采用的技术,采掘工具大致分为六类:
(1)基于规则和决策树的工具:大部分数据采掘工具采用规则发现和决策树分类技术来发现数据模式和规则,其核心是某种归纳算法,如ID3和C4.5。它通常先对数据库中的数据进行采掘,生成规则和决策树,然后对新数据进行分析和预测,典型产品有Angoss Sof tware开发的Knowlege Seeker和ATTAR Software开发的XpertRule Profiler。
(2)基于神经元网络的工具:基于神经元网络的工具由于具有对非线性数据的快速建模能力,因此越来越流行。挖掘过程基本上是将数据簇聚,然后分类计算权值。它在市场数据库的分析和建模方面应用广泛,典型产品有Advanced Software 开发的PBProfile。
(3)数据可视化方法:这类工具大大扩展了传统商业图形的能力,支持多维数据的可视化,同时提供了多方向同时进行数据分析的图形方法。(4)模糊发现方法:应用模糊逻辑进行数据查询排序。
(5)统计方法:这些工具没有使用人工智能技术,因此更适于分析现有信息,而不是从原始数据中发现数据模式和规则。
(6)综合多方法:许多工具采用了多种挖掘方法,一般规模较大。
工具系统的总体发展趋势是,使数据采掘技术进一步为用户所接受和使用,另一方面也可以理解成以使用者的语言表达知识概念。