- 数据挖掘(data mining)是发现数据中有用模式的过程, 目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果
- 数据挖掘过程涉及几个方面:
(1)数据收集和存储
(2)数据选取与准备
(3)模型建立与检验
(4)解释与验证结果
(5)模型应用
- 数据挖掘是一个处理过程,它利用一种或多种计算机学习技术,从数据库的数据中自动分析并提取知识
- 数据挖掘会话的目的是确定数据的趋势和模式
- 数据挖掘所获取的知识是以一个模型或数据概化的形式给出的
- 数据库中的知识发现(knowledge discovery in database, KDD)是一个可以与数据挖掘互换的、使用频率很高的术语,KDD是数据挖掘科学方法的应用
- 如果一个特殊的应用涉及到对存储在多个地方的大量数据进行分析时,数据提取和准备就成为发现过程中最耗时的部分
- “数据挖掘”是有关学习的,学习是一个复杂的过程,可以被分为4个级别
(1)事实(fact):事实的简单陈述
(2)概念(concept):具备某个特征而聚合在一起的对象、符号或事件的集合
(3)程序(procedure):在日常工作和解决困难问题时,为达到某个目的而采取的一步一步的行动过程
(4)原理(principle):代表学习的最高层次,是一种普遍事实或其他事实的基本规律
- 三种概念观点:
(1)经典观点(classical view)证明所有概念都有明确的定义属性,这些属性决定了个别项目是否为某个特殊概念的一个实例;(概念的经典定义是明确的,对曲解丝毫不留余地; 该观点认为一个特殊概念的所有实例等同于这个概念的代表)
(2)概率观点(probabilistic view)认为概念是由属性表示的,这些属性很可能是概念成员(观点假设通过对个别样本(实例)的观察产生概括,作为人们存储和回忆的概念)
(3)样本观点(exemplar view)规定,如果一个给定实例与某个特殊概念的一个或多个已知例子所组成的集合充分地相似,则它被认为是是这个概念的一个例子
- “有指导学习”可能是最好理解的概念学习方法
- (清华大学出版社 翁敬农译)我们年轻的时候,用归纳形成基本概念定义,我们看到代表动物、植物、建筑物和诸如此类的概念实例后,我们听到为这些个别实例做的标记,并选择我们认定的定义概念的特性(属性)形成我们自己的分类模型;这以后我们使用模型帮助我们进一步来区分结构相似的对象,这种类型的学习称为【基于归纳的有指导的概念学习】,或简称【有指导的学习】(supervised learning)
- 有指导学习的目的有两方面,首先,我们通过包含所要学习的概念的例子和非例子的数据集合,使用有指导学习建立分类模型;(一个例子 或非例子被称为一个数据实例)然后,一旦分类模型创建完成,模型将用于确定新提交的未知来源的实例的类别。
- 应用模型为未知来源的新实例分类是一个演绎过程
- 用于创建【决策树模型】的实例称为【训练数据】(training data)
- 我们可以将任何的决策树翻译为一个产生式规则集,产生式规则的格式:
IF 前提条件 THEN 结论条件
- 将决策树映射为产生式规则集是一种简单的技术,按照从根节点出发,沿着树的一条路径到叶结点的顺序来创建规则,规则的前提条件由这条路径上所见的属性值的组合给出,相应规则的结论是叶节点的值
- 与有指导学习不同,【无指导聚类】(unsupervised clustering)为无定义类型数据建立模型。 数据实例根据聚类系统定义的相似分类机制进行分组,在一种或多种评估技术的支持下,最终由我们确定所构造聚类的含义
- 是否需要采用数据挖掘的策略来解决问题,需要考虑:
(1)我们能够清楚地定义问题吗?
(2)是否存在潜在的有意义的数据?
(3)数据是否包含隐藏的知识或者数据是否真实并且仅对报表有用?
(4)处理数据的费用是否低于应用数据挖掘项目中获得的潜在的知识而增加的利益? - 可以定义4种常用的知识来帮助我们确定什么时候考虑采用数据挖掘:
(1)浅知识(shallow knowledge)本质是真实的,可以很容易地在数据库中存储和操作浅知识了数据库查询语句,如SQL,是提取数据中浅知识的优秀工具
(2)多维知识(multidimensional knowledge)也是真实的,然而这种数据以多维格式存储,联机分析处理(OLAP)工具用于处理多维数据
(3)隐含知识(hidden knowledge)表示数据中的模式或规则,这些模式或规则不容易用数据库查询语言查询出来,如SQL。然而数据挖掘算法却可以轻易地找到它们
(4)深知识(deep knowledge)是存储在数据库中,仅仅在给出我们要查找内容的方向时,才能找到的知识,目前数据挖掘工具还不能定位深知识
- 广义地说,我们可以将数据挖掘定义为有4个步骤的处理过程:
(1)集合用于分析的数据集
(2)将数据提交给数据挖掘软件程序
(3)解释结果
(4)将结果运用于新问题或新情况 - 集合数据:一种普遍存在的误解是,为了建立一个有效的模型,数据挖掘算法必须具备成千上万条实例;实际上,在具备几百或几千条相关记录的情况下,大多数数据挖掘工具工作得最好。 通常,集合数据需要花费大量的时间和精力;
有3种访问数据的途径:(1)从数据仓库中访问数据; (2)从关系数据库中访问数据; (3)从简单文件或电子表格中访问数据
- 数据仓库是一种经典数据库,它是为决策支持而不是事物处理而设计的;
数据仓库存储的所有数据都与同一个表中的相同的主题(如一个客户)有关 - 在将数据交给数据挖掘工具前,我们需要考虑:
(1)学习应该是有指导的还是无指导的
(2)在组合的数据中哪些实例将用于建立模型,哪些实例将用于检查模型
(3)从可用的属性清单中选择哪些属性
(4)数据挖掘工具需要使用者指定一个或多个学习参数,什么样的参数设置可以最好地表示数据,从而用于建立模型
- 客户的固有值是客户的期望值,它以客户相似的历史值为基础,数据挖掘用于建立预测固有值的模型
- 【决策树】:一种树形结构,其非终极结点表示对一个或多个属性的检验,而终极结点反映判定的结果
- 【仿真】:像~~一样做
- 【专家系统】:模仿人类专家行为的计算机程序
《数据挖掘》基础
最新推荐文章于 2025-08-11 04:33:12 发布