数据挖掘中的模式识别算法综合解析
1. 数据挖掘的不同视角
目前,知识发现与数据挖掘(KDD)社区致力于开发一个统一的数据挖掘框架,此框架需能对典型的数据挖掘任务进行建模,探讨发现模式和模型的概率性质,处理数据及其归纳概括,并接纳不同形式的数据,如关系数据、序列、文本和网络数据等。同时,要认识到数据挖掘是一个交互式和迭代的过程,所发现知识的可理解性至关重要,且用户需参与其中。
1.1 数据库视角
商业公司常将数据挖掘视为一种复杂的数据库查询形式。基于此视角的研究主要聚焦于以下方面:
- 增强查询语言的表达能力,如规则查询语言、元查询和查询优化。
- 改进数据和数据库管理系统(DBMS)的底层模型,涵盖数据的逻辑模型、演绎数据库、归纳数据库、规则、主动数据库和半结构化数据等。
- 提升与数据仓库系统的集成,包括在线分析处理(OLAP)、历史数据、元数据和交互式探索。
该视角的优点众多,例如可扩展到二级和三级存储中的大型数据库,算法具有通用性,能处理异构数据,便于用户交互和可视化挖掘模式。然而,它在处理复杂模式挖掘、建模非线性关系、进行探索性分析、实现归纳能力以及评估挖掘模式的重要性等方面存在不足。
1.2 统计视角
统计视角把数据挖掘看作是对大型复杂数据集的计算机自动化探索性数据分析。统计工具广泛应用于KDD的各个任务,如预处理(采样、异常值检测、实验设计)、数据建模(聚类、期望最大化、决策树、回归、典型相关等)、模型选择、评估和平均(稳健统计、假设检验)以及可视化(主成分分析、Sammon映射)。
其优势在于拥有坚实的理论基础,便于提出正式问题,像分类和聚类等任务
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



