数据挖掘:从基础到应用的全面解析
1. 数据挖掘概述
在当今数字化时代,数据挖掘和知识发现(KDD)在各个领域都展现出了巨大的潜力。数据挖掘过程通常涉及多个步骤,其中数据预处理是关键的一环。借助广泛使用的关系数据库系统和数据仓库,数据预处理(包括数据收集、清理、选择和转换)可以通过构建数据仓库并在其上执行在线分析处理(OLAP)操作来完成。数据挖掘、模式评估和知识呈现等步骤有时会整合为一个可能迭代的过程,即数据挖掘。如果需要,模式维护通常作为最后一步。
1.1 特征选择
数据预处理往往比数据挖掘更耗时且更具挑战性。数据常常包含噪声、错误成分和缺失值,还可能记录了冗余或无关的变量,而重要特征却缺失。数据预处理需要纠正不准确之处、去除异常值、消除重复记录,填补数据中的空缺并检查条目的一致性,将原始数据转换为适合数据挖掘工具处理的格式。
特征选择也是KDD过程中的重要要求。它是选择必要且足以代表数据的特征的过程,受到多个因素的影响,如掩蔽变量、分析中使用的变量数量以及变量的相关性。
- 掩蔽变量 :是一种隐藏或伪装数据模式的技术。研究表明,包含无关变量会隐藏数据的真实聚类,因此分析中应仅包含有助于区分聚类的变量。
- 变量数量 :数据挖掘中使用的变量数量很重要。通常人们倾向于使用比必要数量更多的变量,但增加维度会使多维数据空间变得稀疏。然而,不包含相关变量也可能导致无法识别聚类。在挖掘一些工业数据时,确定数据记录中是否包含了所有重要变量是一个实际难题。
如果有先验知识,应加以利用;否则,需要采用数学方法。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



