数据分析与数据挖掘期末复习（二）

萌新小白嘤嘤嘤

已于 2024-06-26 10:14:02 修改

阅读量598

点赞数 8

CC 4.0 BY-SA版权

文章标签：数据挖掘数据分析人工智能

于 2024-06-26 10:00:00 首次发布

本文链接：https://blog.youkuaiyun.com/m0_62368915/article/details/139848161

第四章决策树分类算法

Ⅰ基本知识

1.基本概念

从数据中生成分类器的一个特别有效的方法是生成一棵决策树（Decision Tree）

决策树是一个类似于流程图的树结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布，树的最顶层节点是根节点。

一棵典型的决策树如图所示，它表示概念 buy_computer，预测顾客是否可能购买计算机。内部节点用矩形表示，而树叶节点用椭圆表示，为了对未知的样本分类，样本的属性值在决策树上测试。

决策树从根到叶节点的一条路径就对应着一条合取规则。

2.方法

特征选择：选择最合适的特征进行节点分裂，常用的方法有信息增益、信息增益率、基尼不纯度等。
树的生成：从根节点开始，递归地选择最优特征进行分裂，直到满足停止条件。
剪枝：为了防止过拟合，对生成的树进行剪枝，常见的剪枝方法有预剪枝和后剪枝。

3.过程

数据准备：收集数据并进行预处理，包括清洗、编码和特征选择。
特征选择：评估每个特征对分类结果的贡献，并选择最佳特征。
生成决策树：使用选择的特征递归地构建树，每个节点代表一个特征的测试，每个分支代表测试的结果。
剪枝：对生成的树进行剪枝，以避免过拟合。
模型评估：使用测试数据评估决策树的性能。

4.划分的依据

信息增益：度量数据集的不纯度，选择能够最大程度减少不纯度的特征进行分裂。
信息增益率：信息增益的改进，避免偏向于选择具有大量值的特征。
基尼不纯度：度量数据集中不同类别的分布，选择能够最大程度减少基尼不纯度的特征进行分裂。

Ⅱ决策树算法

1.ID3算法

(1)初始化决策树T，使其只包含一个树根结点(X,Q)，其中X是全体样本集，Q为全体属性集。

(2)if(T中所有叶节点(X’,Q’)都满足X属于同一类或Q’为空)then算法停止；

(3)else{任取一个不具有(2)中所述状态的叶节点(X’,Q’)；

(4)foreachQ’中的属性Again(A,X’)； do计算信息增益

(5)选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性；

(6)foreachB的取值b i do从该节点(X’,Q’)伸出分支，代表测试输出B=bi ；求得X中B值等于b i的子集Xi ，并生成相应的叶节点(X i ’,Q’-{B})；}

(7)转(2)；}

实例：

如表所示为一个商场顾客数据库（训练样本集合）属性。样本集合的类别属性为：“buy computer”，该属性有两个不同取值，即{yes,no}，因此就有两个不同的类别(m=2)。设C1对应“yes”类别，C2对应“no”类别。C1类别包含9个样本，C2类别包含5个样本。

为了计算每个属性的信息增益，首先计算出所有（对一个给定样本进行分类所需要）的信息量， 具体计算过程 如下：

接着需要计算每个属性的信息熵。假设先从属性“age”开始，根据属性“age”每个取值在C1类别和C2类别中的分布，就可以计算出每个分布所对应的信息。

然后就可以计算出若根据属性“age”对样本集合进行划分，所获得对一个数据对象进行分类而需要的信息熵，由此获得利用属性“age”对样本集合进行划分所获得的信息增益为：

类似可以获得

Gain（ income）= 0.0029； Gain（ student）= 0.151； Gain（ creditrating）= 0.048

显然选择属性“age”所获得的信息增益最大，因此被作为测试属性用于产生当前分支结点。这个新产生的结点被标记为“age”；同时根据属性“age”的三个不同取值，产生三个不同的分支，当前的样本集合被划分为三个子集，

从上图中可以看出，age=“30-40”的子集样本的类别相同，均为Yes，故该节点将成为一个叶子节点，并且其类别标记为Yes。

接下来，对age节点的不纯分支子节点进一步完成与上述步骤类似的计算，最后得到的决策树如图所示。

ID3算法的优点是：算法的理论清晰，方法简单，学习能力较强。

ID3和其他算法的区别：

ID3算法：使用信息增益作为特征选择的准则。
C4.5算法：是ID3的改进版本，使用信息增益率来克服某些问题，并且可以处理连续和缺失数据。
CART算法：既可以用于分类（CART-C）也可以用于回归（CART-R），使用基尼不纯度作为分裂准则。

第五章贝叶斯分类算法

Ⅰ基本概念

贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。

贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：

已知类条件概率密度参数表达式和先验概率。
利用贝叶斯公式转换成后验概率。
根据后验概率大小进行决策分类。

Ⅱ基本方法

Ⅲ贝叶斯分类器的一些思想

例：今日的天气是否适合打球？

定义随机变量： y0 =yes ；y1 =no

先验或先验概率反映了我们在实际观察之前对

某种状态的预期
在这个例子里，也就是适宜或不适宜打球天气

的概率
比如在A 地，温和的天气占大多数；在 B 地，阴

雨天气居多；
先验概率记作：P(y = yi) 或 P(yi)

$1=\sum_{i=1}^{c}P(yi)$

基于先验的决策

决策规则是基于输入所采取的特定行动

我们是否可以基于先验做出决策?

青岛的秋天天气晴朗
中老年容易出现某些疾病

可以，但是局限很大

a.总是做出同样的预测

不会考虑个体具体情况，比如是中老年就会做出相关的决策

b.如果先验概率是均匀的，那么规则效果不佳

一些疾病对所有人都易感，具体到每个人就类似于随机猜

c.无法利用更多的信息

后验概率 (Posterior Probability) :给定观测向量 x ，某个特定类别的概率P(y|x)

贝叶斯定理:

第六章 KNN算法

ⅠKNN的基本思想

根据距离函数计算待分类样本X和每个训练样本的距离（作为相似度），选择与待分类样本距离最小的K个样本作为X的K个最邻近，最后以X的K个最邻近中的大多数所属的类别作为X的类别。KNN可以说是一种最直接的用来分类未知数据的方法。

Ⅱ实现步骤：

①初始化距离为最大值；

②计算未知样本和每个训练样本的距离dist；

③得到目前K个最临近样本中的最大距离maxdist；

④如果dist小于maxdist，则将该训练样本作为K- 最近邻样本；

⑤重复步骤2、3、4，直到所有未知样本和所有训练样本的距离都算完；

⑥统计K-最近邻样本中每个类标号出现的次数；

⑦选择出现频率最大的类标号作为未知样本的类标号。

ⅢKNN算法的优缺点

优点

1)简单，易于理解，易于实现，无需估计参数，无需训练；

2)适合对稀有事件进行分类；

3)特别适合于多分类问题

不足

1)分类速度慢；

2)各属性的权重相同，影响了准确率；

3)样本库容量依赖性较强；

4)K值不好确定；

第七章人工神经网络算法

Ⅰ人工神经网络

人工神经网络是由大量的神经元按照大规模并行的方式通过一定的拓扑结构连接而成的网络。

1.常见分类

1）按神经网络的拓扑结构可以分为反馈神经网络模型和前向神经网络模型

最低0.47元/天解锁文章

200万优质内容无限畅学