数据挖掘复习提纲

第一章 数据挖掘与大数据简介

复习视频地址
在这里插入图片描述

大数据:大数据(Big data)是一个流行词或短语,用来描述大量的结构化和非结构化数据,这些数据大到难以使用传统数据库和软件技术处理。特征:海量性,多样性,实时性,不确定性

  1. 什么是数据挖掘
    从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式和知识

  2. 知识发现过程
    数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示、
    数据挖掘是知识发现的核心
    在这里插入图片描述

  3. 数据挖掘功能/任务
    关联规则挖掘,聚类,分类/回归,噪声检测,孤立点分析等

  4. 数据挖掘的常识性知识
    在这里插入图片描述


第二章 认识数据与数据预处理

在这里插入图片描述

2.1 认识数据

2.1.1 属性类型

在这里插入图片描述

离散属性与连续属性:
取值是否连续(int, float等)
对称属性与非对称属性:
对称:0,1;男/女;非对称: 一个比另一个重要

2.1.2 数据集类型

  • 记录数据
    数据矩阵、文档数据、购物篮数据
  • 图数据
    万维网、分子结构
  • 有序数据
    时序数据、序列数据、基因序列数据、空间数据

2.1.3 数据的统计描述

在这里插入图片描述

  • 数据的散步
    在这里插入图片描述
  • 可视化
    包括分位数图、分位数-分位数图(横向对比)、直方图、散点图等

2.1.4 数据的相似性度量

  1. 标称属性数据
    在这里插入图片描述

  2. 二元变量属性数据
    在这里插入图片描述example
    在这里插入图片描述

  3. 序数型变量数据
    在这里插入图片描述

  4. 数值属性数据
    在这里插入图片描述

数据标准化
在这里插入图片描述

  1. 混合型数据
    在这里插入图片描述

  2. 相似性度量方式
    在这里插入图片描述

数据集成–相关分析

  1. 数值型数据—相关分析
    在这里插入图片描述
    在这里插入图片描述
  1. 标称数据----卡方检验
    在这里插入图片描述
    在这里插入图片描述

2.2 数据预处理

  • 主要任务
    在这里插入图片描述

2.2.1 缺失值处理

在这里插入图片描述

2.2.2 特征筛选

在这里插入图片描述

信息熵—条件信息熵—信息增益
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2.3 归一化

在这里插入图片描述

第三章 关联规则挖掘

在这里插入图片描述

3.1 几个重要概念

支持度、置信度、频繁项集、关联规则(掌握)

  • 支持度
    在这里插入图片描述

  • 置信度
    在这里插入图片描述在这里插入图片描述

  • 频繁项集(Frequent itemset)
    在这里插入图片描述

  • 关联规则
    在这里插入图片描述

example
在这里插入图片描述

3.2 关联规则挖掘算法

  • 关联规则挖掘
    在这里插入图片描述
  • 挖掘关联规则的一般步骤
    在这里插入图片描述

3.2.1 Apriori(掌握)

在这里插入图片描述在这里插入图片描述

-计算复杂性

在这里插入图片描述

  • 提高Apriori算法效率的方法
  1. 基于散列的技术
    散列项集到对应的桶中,一个其hash桶的计数小于阈值k-itemset不可能是频繁的
  2. 事务压缩
    删除不可能对寻找频繁项集有用的事务(DB原始事务/记录)
    不包含任何频繁k项集的事务不可能包含任何频繁k+1项集,可标记或删除
  3. 划分
    在这里插入图片描述
  4. 抽样
    在这里插入图片描述

3.2.2 FP-Growth(理解)

  • 构造
    在这里插入图片描述
    在这里插入图片描述

  • 优缺点
    在这里插入图片描述

  • 频繁模式挖掘核心
    (详细见黑皮书P168页)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

3.3 关联规则评估(理解)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


第四章 分类/回归

在这里插入图片描述

  • 分类 vs 预测
    在这里插入图片描述- 监督学习和非监督学习

在这里插入图片描述

  • 模型分类
    在这里插入图片描述

  • 经典分类方法
    (1)Decision Tree
    (2)KNN
    (3)Naive Bayes
    (4)SVM
    (5)ANN

4.1 Decision Tree

  • 构造流程
    在这里插入图片描述
  • 属性选择度量
    在这里插入图片描述
  1. 信息增益(ID3)
    在这里插入图片描述
    在这里插入图片描述

  2. 增益率(C4.5)
    在这里插入图片描述

  3. Gini指标(CART)
    在这里插入图片描述

  • 过拟合和剪枝
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4.2 KNN

  • 基本思想
    在这里插入图片描述
  • 常见问题
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

4.3 Naive Bayes

在这里插入图片描述

在这里插入图片描述
例题:黑皮书 P229
在这里插入图片描述

4.4 SVM

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 结构风险–经验风险
    在这里插入图片描述
    在这里插入图片描述

4.5 ANN

4.5.1 多层前馈神经网路

在这里插入图片描述
在这里插入图片描述

  • 误差修正
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

4.5.2 感知机模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.5.3 后向传播网络(BP)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • ANN优缺点
    在这里插入图片描述

4.6 分类算法对比

分类算法应用场景优点缺点
决策树搜索排序,期权定价超强的学习能力和泛化能力(对新样本的适应能力),训练速度快易过拟合,改进为随机森林(Random Forest, RF)
KNN图像压缩易于理解和实现,适合多分类问题计算量大,复杂度高,不适合实时场景
朴素贝叶斯文本分类(如:垃圾邮件识别)生成式模型,通过计算概率来进行分类,可以用来处理多分类问题,对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。需要一个很强的条件独立性假设前提
SVM高维文本分类,小样本分类可以解决小样本情况下的机器学习问题,可以解决高维问题 可以避免神经网络结构选择和局部极小点问题核函数敏感,不加修改的情况下只能做二分类
ANN图像处理,模式识别具有实现任何复杂非线性映射的功能收敛速度慢、计算量大、训练时间长,易收敛到局部最优

4.7 集成学习

在这里插入图片描述

4.8 分类评价

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.9 集成学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第五章 聚类分析和噪声检测

在这里插入图片描述

5.1 聚类的概念及其算法(掌握)

什么是聚类?聚类算法的4大类型,分别的算法有哪些

  • 聚类
    就是将数据分为多个簇(Clusters),使得在同一个簇内对象之间具有较高的相似度,而不同簇之间的对象差别较大。

  • 聚类算法分类
    在这里插入图片描述

  • 划分的方法代表算法:K-Means, K-Medoids
    在这里插入图片描述

  • 层次的方法代表算法:AGNES凝聚,DIANA分裂
    在这里插入图片描述

  • 基于密度的方法代表算法:DBSCAN
    在这里插入图片描述

  • 基于网格的方法代表算法: STING

5.2 Kmeans聚类(掌握)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.3 DBSCAN(理解)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.4 聚类算法对比

聚类算法应用场景优点缺点
K-Means简单快速,对于大数据集,算法是相对可伸缩和高效率的必须给定k值;对初值敏感,可能导致不同结果;不适合发现非球形状的簇或者大小差别很大的簇;对于噪声和孤立点数据是敏感的
DBSCAN可发现任意形状的簇,对噪声数据不敏感算法复杂,如果数据库比较大的时候I/O开销大,对参数EPS和Minst非常敏感

5.5 离群点类型

全局离群点、情景离群点、集体离群点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

第六章 大数据分析

在这里插入图片描述

6.1 哈希技术

MinHash

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

LSH

在这里插入图片描述
可行性理论证明
在这里插入图片描述

6.2 数据流挖掘

  • 数据流
    在这里插入图片描述
  • 挑战
    在这里插入图片描述
  • 概念漂移

在预测分析和机器学习中,漂移的概念意味着目标变量的统计属性,也就是模型试图预测的,会随着时间以不可预见的方式发生变化。
在这里插入图片描述
检测方法
在这里插入图片描述
在这里插入图片描述

  • 分类
    在这里插入图片描述

VFDT
在这里插入图片描述

6.3 Hadoop/Spark

  • 什么是Hadoop/Spark
    在这里插入图片描述
    在这里插入图片描述

  • Hadoop设计准则
    在这里插入图片描述
    在这里插入图片描述

  • HDFS
    在这里插入图片描述

  • MapReduce
    在这里插入图片描述

在这里插入图片描述

  • MapReduce vs Spark
    在这里插入图片描述

在这里插入图片描述

MapReduce 整个算法的瓶颈是不必要的数据读写,而Spark 主要改进的就是这一点。具体地,Spark 延续了MapReduce 的设计思路:对数据的计算也分为Map 和Reduce 两类。但不同的是,一个Spark 任务并不止包含一个Map 和一个Reduce,而是由一系列的Map、Reduce构成。这样,计算的中间结果可以高效地转给下一个计算步骤,提高算法性能。虽然Spark 的改进看似很小,但实验结果显示,它的算法性能相比MapReduce 提高了10~100 倍。

Spark将数据也存在HDFS,但读成RDD(弹性式分布数据集)格式,基于内存计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值