1. 数据挖掘的定义
· 广义:知识发现的全过程
· 狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法
· 知识发现的流程如下:
(1)数据准备:掌握知识发现应用领域的情况,熟悉相关背景知识,理解用户需求
(2)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或者样本
(3)数据预处理:对数据选取步骤中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计的等方法填充丢失的数据。
(4)数据变换:根据知识发现的任务对经过预处理的数据进行再处理,将数据变换或统一成是和挖掘的形式,包括投影、汇总、聚集等。
(5)数据挖掘:确定发现目标,根据用户的需求,确定要发现的知识类型。根据确定的任务选择合适的分类、关联、聚类等算法,选取合适的模型和参数,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。
(6)模式解释:对在数据挖掘中发现的模式进行解释。经过用户或者机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就返回前面的响应步骤反复提取。
(7)知识评价:将发现的知识以用户能了解的形式呈现给用户。
在上述步骤中,数据挖掘占据非常重要的地位,是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化的分析企业的数据,做出归纳性的整理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策,数据挖掘决定了整个过程的效果与效率。
2. 数据挖掘的任务
· 数据挖掘的任务包括分类与回归分析、相关分析、聚类分析、关联规则挖掘和异常检测等,分为预测和描述两大类
· 预测任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(Target variable)或因变量(Dependent variable),而被用来预测的属性称为说明变量(Explanatory variable)或自变量(Independent variable)。
· 描述任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
· 预测任务是在当前数据上进行归纳以做出预测,描述性挖掘主要是刻画目标数据中数据的一般性质。
(1)分类(Classification)
· 分类属于有监督学习,即从给定的有标记训练数据集中学习出一个函数,当未标记数据到来时,可以根据这个函数预测结果
· 在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。
· 分类找出描述和区分数据类或者概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号,导出的模型是基于对训练数据集(即类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。
· 到处模型的表示形式有分类规则、决策树、数学公式、神经网络等。