
数据挖掘学习笔记
文章平均质量分 51
sigmeta
Peking University / Microsoft
展开
-
【数据挖掘学习笔记】1.数据挖掘概述
原创 2018-06-21 17:02:34 · 279 阅读 · 0 评论 -
【数据挖掘学习笔记】11.频繁模式挖掘进阶与关联规则
一、关联规则关联规则步骤:– 1、找个这个“同一项集”,相同的项集对应的规则有相同的支持度,找到支持度≥minsup的项集– 2、计算项集中所有规则的置信度,找到置信度≥minconf的规则由频繁项集生成关联规则生成关联规则– 给定频繁项集L,找出L的所有非空子集f,满足f →L–f 的置信度不小于最小置信度阈值– 如果{A,B,C,D}是频繁项集,则候选的规则有: ABC →D, ABD ...原创 2018-07-04 00:05:59 · 2515 阅读 · 0 评论 -
【数据挖掘学习笔记】10.频繁模式挖掘基础
一、基本概念频繁模式– 频繁的出现在数据集中的模式– 项集、子序或者子结构动机– 发现数据中蕴含的事物的内在规律• 项(Item) – 最小的处理单位 – 例如:Bread, Milk• 事务(Transaction) – 由事务号和项集组成 – 例如:<1, {Bread,Milk}> • 事务数据库 – 由多个事务组成• 项集(Itemset)– 一个或多个项(item) 的集 ...原创 2018-07-03 23:44:18 · 6899 阅读 · 0 评论 -
【数据挖掘学习笔记】9.高级聚类方法
一、密度聚类基于距离的方法– 适用于发现类球状的簇– 在交通等领域,非球状簇的挖掘效果较差– 判断是否“聚”的依据不仅仅有距离基于密度进行聚类的思想– 发现“密”的区域– 判断密的区域的连通性– DBSCAN(Density-Based Spatial Clustering of Applications with Noise)适应噪声的基于密度的空间聚类应用对象的ε-临域– 对象为中心、以ε为半...原创 2018-06-23 23:16:13 · 2123 阅读 · 0 评论 -
【数据挖掘学习笔记】8.聚类基础
一、聚类分析基础什么是聚类分析?– 将物理或抽象对象的集合分成相似的对象类的过程称为聚类– 在同一个聚类(簇)中的对象彼此相似– 不同簇中的对象则相异聚类分析的作用– 分类是人类认知世界的重要活动– 区分不同类依靠类的特征– 找出标识分类的特征,以区分不同的类典型应用– Marketing– 图像处理– 生物学– 交通– 房地产分析内容主题 识别群体 发现行为模式 无指导的学习:没有预定义的类编号...原创 2018-06-23 21:30:55 · 1456 阅读 · 0 评论 -
【数据挖掘学习笔记】7.决策树与链接分析
一、决策树决策树– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法– 每个分支要么是一个新的决策节点,要么是树的叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。– 功能强大且相当被受...原创 2018-06-23 18:31:58 · 1192 阅读 · 0 评论 -
【数据挖掘学习笔记】6.随机过程与抽样
一、马尔可夫模型马尔可夫性(无后效性)– 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性– 具有马尔可夫性的随机过程称为马尔可夫过程– 时间和状态都是离散的马尔可夫过程称为马尔可夫链转移概率称条件概率为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。说明: 转移概率具有特点由转移概率组成的矩阵称为马氏链的转移概率矩阵.此矩阵的每一行元素之...原创 2018-06-23 01:21:36 · 3700 阅读 · 0 评论 -
【数据挖掘学习笔记】5.分类基础
一、特征与分类特征作用数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观察汇总的数据集提供一类数据的概貌,或将它与对比类相区别方便、灵活地以不同的粒度和从不同的角度描述数据集概念描述方法 数据泛化 解析特征 挖掘类比较数据泛化数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层解析特征– 通过属性相关性分析,过滤掉统计不相关或弱相关的属性,保留与挖掘任务最...原创 2018-06-22 22:34:34 · 1789 阅读 · 0 评论 -
【数据挖掘学习笔记】4.数据预处理
数据预处理概述数据预处理 data preprocessing– 在主要的处理以前对数据进行的一些处理– 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理数据预处理形式其他可能需要数据预处理的情况– 数据的压缩存储– 数据形式的转换– 数据内容的筛选和梳理例子预处理方法 ★数据清理 数据集成与变换 数据归约 离散化和概念分层1、数据清理现实世...原创 2018-06-22 01:10:05 · 4082 阅读 · 2 评论 -
【数据挖掘学习笔记】3.数据仓库与数据模型
原创 2018-06-21 21:42:35 · 297 阅读 · 0 评论 -
【数据挖掘学习笔记】2.认识数据
原创 2018-06-21 21:40:37 · 261 阅读 · 0 评论 -
【数据挖掘学习笔记】12.复杂类型数据挖掘
一、模糊挖掘不确定性挖掘方法——模糊挖掘– 基于概率– 基于粗糙集– 基于模糊集模糊集的表示(1)Zadeh表示法(2)序偶表示法(3)向量表示法模糊集运算定义:设A,B是论域U的两个模糊子集,定义模糊统计法模糊矩阵定义:设 R = (rij)m×n ,0 ≤ rij ≤ 1,称R为模糊矩阵。当 rij 只取0或1时,称R为布尔(Boole)矩阵。当模糊方阵 R = (rij)n×n的对角线上的元...原创 2018-07-07 03:20:01 · 2953 阅读 · 0 评论