
数据挖掘
文章平均质量分 75
Coding懒懒
享受技术人生
展开
-
数据挖掘概念与艺术读书笔记1
第1章 引言1.1 什么激发了数据挖掘,为什么它是重要的Ø 需要是发明之母。——柏拉图Ø 联机事务处理(OLTP)Ø 数据库系统技术的演变(图1-1)Ø 数据仓库,数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)Ø 数据丰富加上对强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。 快速增长的海量数据收集、存放在大型和大量数据存储库中,没有强转载 2015-04-24 10:35:28 · 1595 阅读 · 0 评论 -
第八章 朴素贝叶斯分类法
前言:贝叶斯分类包括朴素贝叶斯分类和贝叶斯信念网络分类。本章介绍朴素贝叶斯分类,第九章将会介绍贝叶斯信念网络分类。1、贝叶斯定理1.1 条件概率: P(X|H) 表示事件H已经发生的前提下,事件X发生的概率,叫做事件H发生下事件X的条件概率。转载 2015-05-25 21:54:10 · 1382 阅读 · 0 评论 -
第六章FP-Growth
海量数据下,Apriori算法的时空复杂度都不容忽视。 1)空间复杂度:如果L1数量达到104的量级,那么C2中的候选项将达到107的量级。 2)时间复杂度:每计算一次Ck就需要扫描一遍数据库。 此时,人们希望设计一种方法,“挖掘全部频繁项集而无须这种代价昂贵的候选产生过程”。一种试图这样做的有趣的方法称为频繁模式增长(FP-Gro转载 2015-05-25 21:47:56 · 1836 阅读 · 0 评论 -
第一章 转自DQ_DM
1、为什么进行数据挖掘 我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1 迈向信息时代 一种流行的说法是“我们生活在信息时代”。然而,实际上我们生活在数据时代。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。 急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数转载 2015-05-25 21:38:12 · 1135 阅读 · 0 评论 -
第九章 贝叶斯信念网络分类
朴素贝叶斯分类有一个限制条件,就是假定类条件独立(即给定元组的类标号,假定属性的值可以条件地相互独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的。然而,在实践中,变量(属性)之间可能存在依赖关系,这样就限制了朴素贝叶斯分类的能力。贝叶斯信念网络说明联合条件概率分布,它提供一种因果关系的图形模型,可以在其上进行学习。它不要求所有的属性集都条件独立,而允许一部分属性条件独立。训练后的贝叶斯信转载 2015-05-25 21:55:32 · 6394 阅读 · 0 评论 -
第六章Apriori算法
1、Apriori算法介绍 Apriori算法是Agrawal和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。 Apriori算法使用一种称为逐层搜索的迭代算法,其中k项集用于探索(k+1)项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出转载 2015-05-25 21:46:35 · 1842 阅读 · 0 评论 -
分类和聚类的区别及各自的常见算法
1、分类和聚类的区别: Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习), Cluster转载 2015-05-25 21:52:24 · 22460 阅读 · 0 评论 -
第三章 数据预处理
当今现实世界的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大(常常多达数兆兆字节,甚至更多)。“如何对数据进行预处理,提高数据质量,从而提高挖掘结果的质量? 如何对数据预处理,使得挖掘过程更加有效、更加容易?” 有大量数据预处理技术。数据清理可以清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一致的数据存储,如数据仓库。数据归约可以通过如聚集、删转载 2015-05-25 21:41:17 · 44981 阅读 · 1 评论 -
第八章 AdaBoost算法(提高分类准确率)
AdaBoost是一种流行的提升(提高分类准确率的组合分类方法)算法。它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起转载 2015-05-25 21:56:13 · 4610 阅读 · 0 评论 -
第八章 基于规则的分类
1、使用IF-THEN规则分类 规则是表示信息或少量知识的好方法。基于规则的分类器使用一组IF—THEN规则进行分类。一个IF—THEN规则是一个如下的表达式: IF条转载 2015-05-25 21:54:57 · 9496 阅读 · 1 评论 -
第六章 挖掘频繁模式、关联和相关性:基本概念和方法
6.1 基本概念6.1.1 频繁模式 频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。 频繁项集:频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合。 频繁子序列:一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购物历史数据库中,则称它为一个(频繁的)序列模式。转载 2015-05-25 21:49:42 · 3956 阅读 · 0 评论 -
第二章 认识数据
1、数据对象与属性类型 数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售。 通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。 如果数据对象存放在数据库中,则它们是数据元组。也就是说,数据库的行对应于数据对象,而列对应于属性。1.1 什么是属性转载 2015-05-25 21:38:47 · 6341 阅读 · 0 评论 -
数据挖掘读书笔记3
2.6 数据离散化和概念分层产生通过将属性值划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。这导致挖掘结果的简洁、易于使用的、知识层面的表示。 离散化技术可以根据如何进行离散化加以分类,如根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用类信息转载 2015-04-24 10:43:20 · 1889 阅读 · 0 评论 -
第九章 后向传播算法(分类)
1、神经网络 后向传播(Back—PropagationNetwork,简称BP网络)是一种神经网络学习算法。 神经网络最早是由心理学家和神经学家开创的,旨在寻求开发和检验神经的计算模拟。粗略地说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。在学习阶段,通过调整这些权重,使得它能够正确预测输入样本的类标号。转载 2015-05-25 21:54:34 · 12993 阅读 · 0 评论