数据挖掘期末抱佛脚专用 华南农业大学

本文深入探讨了SVM、KMeans、决策树、SOM算法及其优缺点。SVM通过非线性映射处理小样本问题,但对大样本处理效率较低;KMeans在处理类区分明显数据时效果良好,但对类不明显或异常点处理不足。决策树以信息熵为基础,通过最大信息增益选择分裂属性。SOM算法则解决了KMeans的离群点问题。同时,文章还介绍了C4.5对ID3的改进,如信息增益比例、数值属性处理等,并简述了贝叶斯决策准则及其在条件独立性上的局限。此外,还涵盖了卡方检验、贝叶斯分类、K-means和K中心点的计算过程以及各种距离函数。最后,通过实例分析了贝叶斯信念网络在心脏病概率计算中的应用。

简答题


1. SVM的优缺点

  • 优点
    【1】使用内积核函数向高维空间进行非线性映射
    【2】对特征空间进行超平面的划分,另外,最大化边界是SVM的核心思想
    【3】避免维度灾难
    【4】对于小样本好

  • 缺点
    【1】对大样本不好
    【2】多分类不方便,要解决的策略:一对一,一对多,组合二分类,SVM决策树


2. Kmeans的优缺点

  • 优点
    【1】简单,好,复杂度:O(knt),k聚类数,n样本数量,t迭代次数
    【2】对于类和类明显区别明显的,好!

  • 缺点
    【1】对于类和类之间不明显的,不好!
    【2】抗噪能力差
    【3】无法解决离群异常点的问题


3. K中心点相对于Kmeans的改进之处

解决了离群特异的问题


4. 决策树的生成过程

计算信息熵的时候,信息熵越小,信息的效益越大。

关于某个属性的信息熵的计算公式:

假设现在有这么一个表:

属性1属性2类别

假设属性1的可能是两种:A或者B

E属性1=A=−数量属性1=A且类别=?数量属性1=Alog2(&)−...−...−E_{属性1=A} =- \frac{数量_{属性1=A且类别=?}}{数量_{属性1=A}} log_2(\&)-...-...-E1=A=1=A1=A=log2(&)......

那么:
entropy(S,属性1)=数量属性1=A总样本数∗E属性1=A+....entropy(S,属性1) = \frac{数量_{属性1=A}}{总样本数}*E_{属性1=A}+....entropy(S,1)=1=AE1=A+....

角色:

  • sample:样本list
  • at_list:属性的list
def Gen_tree(samples, at_list):
	N = node()
	if all_in_same_Label(samples) == True:
		return N # 则返回N作为叶节点,并且标记为对应的label value, 程序结束
	if len(at_size) == 0:
		return N # 则返回N作为叶节点,并且标记为对应的label value
	test_at = max_info(at_list) # 选取最大信息增益的属性作为当前的test_at
	N = test_at # 标记当前节点为test_at
	for op_value in test_at:
		N.branch(condition:test_at == op_value).grow()
		si = find_from_samples(samples, test_at = op_value)
		if len(si) == 0:
			N.branch(condition:test_at == op_value).end()
		else:
			Gen_tree(samples, at_list.remove(test_at))	

5. SOM算法的过程

  • 用随机数初始化权重,生成初始优胜域
  • 接受输入向量
  • 计算xix_ixiwiw_iwi的点积,寻找优胜权重点
  • 利用学习率更新优胜域

6. 密度聚类算法的原理+名词

局部密度:
x(d)={1,d<R0,d>=Rρ=∑x(d) x(d) = \begin{cases}1,d<R\\0,d>=R\end{cases} \\ \rho = \sum x(d) x(d)={1,d<R0,d>=Rρ=x(d)

距离阈值:θi=min⁡j:ρi>ρj(dij)\theta_i = \min_{j:\rho_i>\rho_j}(d_ij)θi=j:ρi>ρjmin(dij)

聚类中心:大局部密度和大距离阈值的点

异端点:小局部密度和距离高密度点远的点

原理:利用低密度区域对高密度区域进行分割。

过程

  • 计算每个点到高密度点的距离和每个点的局部密度
  • 找出聚类中心和异端点

(无需优化迭代)


7. 贝叶斯决策准则的优缺点

  • 优点
    稳定,强壮,简单

  • 缺点
    一旦,条件不独立,GG



8. SOM的拓扑结构

【1】一维的:
在这里插入图片描述

【2】二维的
在这里插入图片描述


9. C4.5相对于ID3的优胜之处

【1】用了信息增益比例
【2】扩充到数值属性
【3】处理具有缺失样本的时候用平均值代替
【4】K次迭代交叉校验


计算题


1. 卡方检验

期望是:横平均

打横计算期望,然后计算:

x2=∑(xi−x期望)2x期望x^2 = \sum \frac{(x_i - x_{期望})^2}{x_{期望}}x2=x(xix)2

查表,解决。


2. 贝叶斯分类

第一步,你先把标签筛选出来,然后,计算

  • P(C∣Label)=SumC&LabelSumLabelP(C|Label)=\frac{Sum_{C\&Label}}{Sum_{Label}}P(CLabel)=SumLabelSumC&Label
  • P(Label)=SumLabelSumP(Label) = \frac{Sum_{Label}}{Sum}P(Label)=SumSumLabel

计算:P(Label)∗P(Ci∣Label)...P(Label)* P(C_i|Label)...P(Label)P(CiLabel)...

看哪种可能性更大


3. Kmeans的计算过程

【1】随机得出一个数作为中心点
【2】计算每一个样本点到中心点的欧氏距离
【3】计算每一个类的平均值
【4】得到的新的中心,迭代…


4. K中心点的计算过程

【1】你先随机选择样本点作为中心点
【2】然后计算样本点到中心点的曼哈顿距离
【3】然后交换可能性,得到新的中心点策略
【4】计算在新的中心点策略下,每一种策略的代价和当前策略的代价的差
【5】采取负最大的那个代价差作为新的策略,然后迭代…


5. Apriori算法计算过程

先找出一级频繁项集,二级的,三级的,注意,在从二级到三级的时候,我们要检查:非频繁剪枝问题。然后罗列出频繁项集表,分析规则,注意,规则的两者A→BA\rightarrow BAB,A和B必须处于同一个频繁项集当中,而且两者恰好能组成母集。

conf=sum母sumAconf = \frac{sum_{母}}{sum_A}conf=sumAsum


6. 分箱,规范化的计算过程

  • 等宽分箱:我们先求出最大值和最小值之间的差值是多大,然后根据要求的箱数,计算区间大小,然后分。不能保证每个箱子的样本数量一样多。

  • 等深分箱:先对数据进行排序,然后根据要求的箱数,进行数量上划分,能做到:基本满足每个箱子的样本数量一样多。

  • Min-Max
    V=DnewDold(V−minold)+minnewV = \frac{D_{new}}{D_{old}}(V-min_{old})+min_{new}V=DoldDnew(Vminold)+minnew

  • Z-Score
    V=V−VˉV标准差V=\frac{V-\bar{V}}{V_{标准差}}V=VVVˉ

  • 小数定标:

注意,定标出来的,不能等于1.
[9,99] = [0.09,0.99]
[9,100] = [0.09, 0.1]


7. 距离函数计算(欧式,曼哈顿,切比雪夫,余弦)

假设两个向量:X={x1,x2}X=\{x_1,x_2\}X={x1,x2}Y={y1,y2}Y=\{y_1,y_2\}Y={y1,y2}

  • 欧式距离:
    D=(x1−y1)2+(x2−y2)2D=\sqrt{(x_1 - y_1)^2+(x_2 - y_2)^2}D=(x1y1)2+(x2y2)2

  • 曼哈顿距离:
    D=∣x1−y1∣+∣x2−y2∣D=|x_1 - y_1| + |x_2 - y_2|D=x1y1+x2y2

  • 切比雪夫距离:
    D=max(∣x1−y1∣,∣x2−y2∣)D=max(|x_1 - y_1| ,|x_2 - y_2|)D=max(x1y1,x2y2)

  • 余弦距离:
    D=XY∣X∣∣Y∣D = \frac{X Y}{|X||Y|}D=XYXY


8. 贝叶斯信念网络的例子分析题目

在这里插入图片描述
(1)没有先验信息,问得心脏病的概率?

能推导出心脏病的无非就是:锻炼事件和饮食事件,

P(HD=yes)P(HD = yes)P(HD=yes)=0.25∗0.7∗0.25+0.45∗0.7∗0.75+0.55∗0.3∗0.25+0.75∗0.3∗0.75=0.25*0.7*0.25+0.45*0.7*0.75+0.55*0.3*0.25+0.75*0.3*0.75=0.250.70.25+0.450.70.75+0.550.30.25+0.750.30.75
=0.49=0.49=0.49

(2)已知有高血压,问得心脏病的概率?

P(BP=high)=0.5185P(BP=high)=0.5185P(BP=high)=0.5185

P(HD=yes∣BP=high)=P(HD=yes&BP=high)∗P(HD=yes)P(BP=high)P(HD=yes|BP=high)=\frac{P(HD=yes \& BP=high)*P(HD=yes)}{P(BP=high)} P(HD=yesBP=high)=P(BP=high)P(HD=yes&BP=high)P(HD=yes)
=0.85∗0.490.5185=\frac{0.85*0.49}{0.5185}=0.51850.850.49

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值