数据挖掘期末抱佛脚专用华南农业大学

最新推荐文章于 2023-06-16 13:28:49 发布

原创最新推荐文章于 2023-06-16 13:28:49 发布 · 1.7k 阅读

40 ·

CC 4.0 BY-SA版权

个人杂记专栏收录该内容

26 篇文章

订阅专栏

本文深入探讨了SVM、KMeans、决策树、SOM算法及其优缺点。SVM通过非线性映射处理小样本问题，但对大样本处理效率较低；KMeans在处理类区分明显数据时效果良好，但对类不明显或异常点处理不足。决策树以信息熵为基础，通过最大信息增益选择分裂属性。SOM算法则解决了KMeans的离群点问题。同时，文章还介绍了C4.5对ID3的改进，如信息增益比例、数值属性处理等，并简述了贝叶斯决策准则及其在条件独立性上的局限。此外，还涵盖了卡方检验、贝叶斯分类、K-means和K中心点的计算过程以及各种距离函数。最后，通过实例分析了贝叶斯信念网络在心脏病概率计算中的应用。

简答题

1. SVM的优缺点

优点：
【1】使用内积核函数向高维空间进行非线性映射
【2】对特征空间进行超平面的划分，另外，最大化边界是SVM的核心思想
【3】避免维度灾难
【4】对于小样本好
缺点：
【1】对大样本不好
【2】多分类不方便，要解决的策略：一对一，一对多，组合二分类，SVM决策树

2. Kmeans的优缺点

优点：
【1】简单，好，复杂度：O(knt)，k聚类数，n样本数量，t迭代次数
【2】对于类和类明显区别明显的，好！
缺点
【1】对于类和类之间不明显的，不好！
【2】抗噪能力差
【3】无法解决离群异常点的问题

3. K中心点相对于Kmeans的改进之处

解决了离群特异的问题

4. 决策树的生成过程

计算信息熵的时候，信息熵越小，信息的效益越大。

关于某个属性的信息熵的计算公式：

假设现在有这么一个表：

属性1	属性2	类别

假设属性1的可能是两种：A或者B

$E属性1=A=−数量属性1=A且类别=？数量属性1=Alog2(&)−...−...−E_{属性1=A} =- \frac{数量_{属性1=A且类别=？}}{数量_{属性1=A}} log_2(\&)-...-...-$

那么：
$\frac{数量_{属性1=A}}{总样本数}*E_{属性1=A}+....$

角色：

sample：样本list
at_list：属性的list

def Gen_tree(samples, at_list):
	N = node()
	if all_in_same_Label(samples) == True:
		return N # 则返回N作为叶节点，并且标记为对应的label value, 程序结束
	if len(at_size) == 0:
		return N # 则返回N作为叶节点，并且标记为对应的label value
	test_at = max_info(at_list) # 选取最大信息增益的属性作为当前的test_at
	N = test_at # 标记当前节点为test_at
	for op_value in test_at:
		N.branch(condition:test_at == op_value).grow()
		si = find_from_samples(samples, test_at = op_value)
		if len(si) == 0:
			N.branch(condition:test_at == op_value).end()
		else:
			Gen_tree(samples, at_list.remove(test_at))

5. SOM算法的过程

用随机数初始化权重，生成初始优胜域
接受输入向量
计算 $x_i$ 和 $w_i$ 的点积，寻找优胜权重点
利用学习率更新优胜域

6. 密度聚类算法的原理+名词

局部密度：
$\begin{cases}1,d<R\\0,d>=R\end{cases} \\ \rho = \sum x(d)$

距离阈值： $θi=min⁡j:ρi>ρj(dij)\theta_i = \min_{j:\rho_i>\rho_j}(d_ij)$

聚类中心：大局部密度和大距离阈值的点

异端点：小局部密度和距离高密度点远的点

原理：利用低密度区域对高密度区域进行分割。

过程：

计算每个点到高密度点的距离和每个点的局部密度
找出聚类中心和异端点

(无需优化迭代)

7. 贝叶斯决策准则的优缺点

优点：
稳定，强壮，简单
缺点：
一旦，条件不独立，GG

8. SOM的拓扑结构

【1】一维的：
在这里插入图片描述

【2】二维的
在这里插入图片描述

9. C4.5相对于ID3的优胜之处

【1】用了信息增益比例
【2】扩充到数值属性
【3】处理具有缺失样本的时候用平均值代替
【4】K次迭代交叉校验

计算题

1. 卡方检验

期望是：横平均

打横计算期望，然后计算：

$x2=∑(xi−x期望)2x期望x^2 = \sum \frac{(x_i - x_{期望})^2}{x_{期望}}$

查表，解决。

2. 贝叶斯分类

第一步，你先把标签筛选出来，然后，计算

$P(C∣Label)=SumC&LabelSumLabelP(C|Label)=\frac{Sum_{C\&Label}}{Sum_{Label}}$
$\frac{Sum_{Label}}{Sum}$

计算： $P(Label)* P(C_i|Label)...$

看哪种可能性更大

3. Kmeans的计算过程

【1】随机得出一个数作为中心点
【2】计算每一个样本点到中心点的欧氏距离
【3】计算每一个类的平均值
【4】得到的新的中心，迭代…

4. K中心点的计算过程

【1】你先随机选择样本点作为中心点
【2】然后计算样本点到中心点的曼哈顿距离
【3】然后交换可能性，得到新的中心点策略
【4】计算在新的中心点策略下，每一种策略的代价和当前策略的代价的差
【5】采取负最大的那个代价差作为新的策略，然后迭代…

5. Apriori算法计算过程

先找出一级频繁项集，二级的，三级的，注意，在从二级到三级的时候，我们要检查：非频繁剪枝问题。然后罗列出频繁项集表，分析规则，注意，规则的两者 $A→BA\rightarrow B$ ，A和B必须处于同一个频繁项集当中，而且两者恰好能组成母集。

$\frac{sum_{母}}{sum_A}$

6. 分箱，规范化的计算过程

等宽分箱：我们先求出最大值和最小值之间的差值是多大，然后根据要求的箱数，计算区间大小，然后分。不能保证每个箱子的样本数量一样多。
等深分箱：先对数据进行排序，然后根据要求的箱数，进行数量上划分，能做到：基本满足每个箱子的样本数量一样多。
Min-Max
$\frac{D_{new}}{D_{old}}(V-min_{old})+min_{new}$
Z-Score
$V=V−VˉV标准差V=\frac{V-\bar{V}}{V_{标准差}}$
小数定标：

注意，定标出来的，不能等于1.
[9,99] = [0.09,0.99]
[9,100] = [0.09, 0.1]

7. 距离函数计算（欧式，曼哈顿，切比雪夫，余弦）

假设两个向量： $X=\{x_1,x_2\}$ 和 $Y=\{y_1,y_2\}$

欧式距离：
$D=(x1−y1)2+(x2−y2)2D=\sqrt{(x_1 - y_1)^2+(x_2 - y_2)^2}$
曼哈顿距离：
$D=|x_1 - y_1| + |x_2 - y_2|$
切比雪夫距离：
$D=max(|x_1 - y_1| ,|x_2 - y_2|)$
余弦距离：
$\frac{X Y}{|X||Y|}$

8. 贝叶斯信念网络的例子分析题目

在这里插入图片描述
（1）没有先验信息，问得心脏病的概率？

解：

能推导出心脏病的无非就是：锻炼事件和饮食事件，

$P (H D = y e s)$ $= 0.25 * 0.7 * 0.25 + 0.45 * 0.7 * 0.75 + 0.55 * 0.3 * 0.25 + 0.75 * 0.3 * 0.75$
$= 0.49$

（2）已知有高血压，问得心脏病的概率？

$P (B P = h i g h) = 0.5185$

$P(HD=yes∣BP=high)=P(HD=yes&BP=high)∗P(HD=yes)P(BP=high)P(HD=yes|BP=high)=\frac{P(HD=yes \& BP=high)*P(HD=yes)}{P(BP=high)}$
$=0.85∗0.490.5185=\frac{0.85*0.49}{0.5185}$