
数据挖掘——概念与技术
淘淘图兔兔呀
这个作者很懒,什么都没留下…
展开
-
1.5 使用什么技术
1.5.1 统计学“统计学研究数据的收集、分析、解释和表示。”原创 2021-02-22 15:47:08 · 104 阅读 · 0 评论 -
1.4.6 所有模式都是有趣的吗
一个模式是有趣的,如果它:(1)易于被人理解;(2)在某种确信度上,对于新的或检验数据是有效的;(3)是潜在有用的;(4)是新颖的。如果一个模式证实了用户寻求证实的某种假设,则它也是有趣的。有趣的模式代表知识。存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计量。对于形如X=>Y的关联规则,一种客观度量是规则的支持度(support)。规则的支持度表示事务数据库中满足规则的事务所占的百分比。支持度可以取概率P(XUY),其中,XUY表示同时包含X和Y的事务,即项集X和Y的并原创 2021-02-15 22:49:27 · 244 阅读 · 0 评论 -
1.4.3 用于预测分析的分类与回归
分类(classification)是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出的模型可以用多种形式表示,如分类规则(即IF-THEN规则)、决策树、数学公式或神经网络。回归(regression)用来预测缺失的或难以获得的数值数据值。相关分析(relevance analysis)可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。...原创 2021-02-15 22:14:57 · 249 阅读 · 0 评论 -
1.4.2 挖掘频繁模式、关联和相关性
**频繁模式(frequent pattern)**是在数据中频繁出现的模式。频繁模式的类型:包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合。子结构可能涉及不同的结构形式(例如,图、数或格),可以与项集或子序列结合在一起。“挖掘频繁模式导致发现数据中有趣的关联和相关性。”包含单个谓词的关联规则称做单维关联规则(single-dimensional association rule)。...原创 2021-02-15 14:59:26 · 245 阅读 · 0 评论 -
1.4.1 类/概念描述:特征化与区分
“数据可以与类或概念相关联。”用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据;(2)数据区分,将目标类与一个或多个可比较类(通常称为对比类)进行比较;(3)数据特征化和区分。数据特征化是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。将数据汇总和特征化有一些有效的方法。基于统计度量和图的简单数据汇总。基于数据立方体的OLAP上卷操作可原创 2021-02-13 23:13:39 · 1349 阅读 · 2 评论 -
1.4 可以挖掘什么类型的模式
数据挖掘功能包括特征化与区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析,离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。有趣的模式即代表知识。...原创 2021-02-13 18:09:58 · 189 阅读 · 0 评论 -
1.3.4 其他类型的数据
其他类型的数据有:时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据)、数据流(例如视频监控和传感器数据,它们连续播送)、空间数据(如地图)、工程设计数据(如建筑数据、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、图和网状数据(如社会和信息网络)和万维网(由Internet提供的巨型、广泛分布的信息存储库)。这些应用带来了新的挑战,例如,如何处理空间结构的数据(如序列、树、图和网络)和特殊语义(如次序、图像、音频和视频的内容、连接性),以及如何挖掘具有原创 2021-02-13 00:26:23 · 207 阅读 · 0 评论 -
1.3.2 数据仓库
“数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。”数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。通常,数据仓库用称做数据立方体(data cube)的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如count或sum(sales_amount)。...原创 2021-02-10 12:21:32 · 70 阅读 · 0 评论 -
1.3.1 数据库数据
“数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。”软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权的访问,确保存储的信息的一致性和安全性。...原创 2021-02-09 14:23:25 · 101 阅读 · 0 评论 -
1.3 可以挖掘什么类型的数据
对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。原创 2021-02-09 13:57:50 · 104 阅读 · 0 评论 -
1.2 什么是数据挖掘
知识发现过程如图1.4所示,由原创 2021-02-08 14:25:01 · 154 阅读 · 0 评论 -
1.1.2 数据挖掘是信息技术的进化
“数据仓库是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。”“数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。”“OLAP是一种分析技术,具有汇总、合并和聚集以及从不同的角度观察信息的能力。”“尽管OLAP工具支持多维分析和决策,但是对于深层次的分析,仍然需要其他分析工具,如提供数据分类、聚类、离群点/异常检测和刻画数据随时间变化等特征的数据挖掘工具。”“大量数据不仅仅是累积在数据库和数据仓库中。还有万维网和各种互联的、异种数据库等基于Web的全球信息库。”“.原创 2021-02-07 19:02:29 · 171 阅读 · 0 评论 -
1.1.1 迈向信息时代
“世界范围的商业活动产生了巨大的数据集,包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。”“急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。”“数据挖掘把大型数据集转换成知识。”——(王)预测。...原创 2021-02-07 18:50:04 · 76 阅读 · 0 评论 -
前言
“数据挖掘通常又称为数据中的知识发现(KDD),是自动地或方便地提取代表知识的模式;这些模式隐藏在大型数据库、数据仓库、Web、其他大量信息库或数据流中。”“我们提供发现隐藏在大型数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题。”...原创 2021-02-04 19:07:49 · 84 阅读 · 0 评论 -
第2版序
“我们必须找到有效方法,自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。”原创 2021-02-04 14:21:22 · 129 阅读 · 0 评论 -
第3版序
“每个企业都从收集和分析数据中获益:医院可以从患者记录中识别趋势和异常,搜索引擎可以进行更好的秩评定和广告投放,环境和公共卫生部门可以识别数据中的模式和异常。”“这样的例子还有很多,如计算机安全和计算机网络入侵检测、家用电器的能源消耗、生物信息学和药物数据的模式分析、财经和商务智能数据、识别博客中的趋势、Twitter等。”...原创 2021-02-04 14:18:03 · 92 阅读 · 0 评论 -
译者序
“数据库系统,特别是关系数据库系统的成功,使得我们有了强有力的事务处理工具。”原创 2021-02-03 14:22:35 · 76 阅读 · 0 评论