简答题
1. SVM的优缺点
-
优点:
【1】使用内积核函数向高维空间进行非线性映射
【2】对特征空间进行超平面的划分,另外,最大化边界是SVM的核心思想
【3】避免维度灾难
【4】对于小样本好 -
缺点:
【1】对大样本不好
【2】多分类不方便,要解决的策略:一对一,一对多,组合二分类,SVM决策树
2. Kmeans的优缺点
-
优点:
【1】简单,好,复杂度:O(knt),k聚类数,n样本数量,t迭代次数
【2】对于类和类明显区别明显的,好! -
缺点
【1】对于类和类之间不明显的,不好!
【2】抗噪能力差
【3】无法解决离群异常点的问题
3. K中心点相对于Kmeans的改进之处
解决了离群特异的问题
4. 决策树的生成过程
计算信息熵的时候,信息熵越小,信息的效益越大。
关于某个属性的信息熵的计算公式:
假设现在有这么一个表:
| 属性1 | 属性2 | 类别 |
|---|---|---|
假设属性1的可能是两种:A或者B
E属性1=A=−数量属性1=A且类别=?数量属性1=Alog2(&)−...−...−E_{属性1=A} =- \frac{数量_{属性1=A且类别=?}}{数量_{属性1=A}} log_2(\&)-...-...-E属性1=A=−数量属性1=A数量属性1=A且类别=?log2(&)−...−...−
那么:
entropy(S,属性1)=数量属性1=A总样本数∗E属性1=A+....entropy(S,属性1) = \frac{数量_{属性1=A}}{总样本数}*E_{属性1=A}+....entropy(S,属性1)=总样本数数量属性1=A∗E属性1=A+....
角色:
- sample:样本list
- at_list:属性的list
def Gen_tree(samples, at_list):
N = node()
if all_in_same_Label(samples) == True:
return N # 则返回N作为叶节点,并且标记为对应的label value, 程序结束
if len(at_size) == 0:
return N # 则返回N作为叶节点,并且标记为对应的label value
test_at = max_info(at_list) # 选取最大信息增益的属性作为当前的test_at
N = test_at # 标记当前节点为test_at
for op_value in test_at:
N.branch(condition:test_at == op_value).grow()
si = find_from_samples(samples, test_at = op_value)
if len(si) == 0:
N.branch(condition:test_at == op_value).end()
else:
Gen_tree(samples, at_list.remove(test_at))
5. SOM算法的过程
- 用随机数初始化权重,生成初始优胜域
- 接受输入向量
- 计算xix_ixi和wiw_iwi的点积,寻找优胜权重点
- 利用学习率更新优胜域
6. 密度聚类算法的原理+名词
局部密度:
x(d)={1,d<R0,d>=Rρ=∑x(d)
x(d) = \begin{cases}1,d<R\\0,d>=R\end{cases} \\
\rho = \sum x(d)
x(d)={1,d<R0,d>=Rρ=∑x(d)
距离阈值:θi=minj:ρi>ρj(dij)\theta_i = \min_{j:\rho_i>\rho_j}(d_ij)θi=j:ρi>ρjmin(dij)
聚类中心:大局部密度和大距离阈值的点
异端点:小局部密度和距离高密度点远的点
原理:利用低密度区域对高密度区域进行分割。
过程:
- 计算每个点到高密度点的距离和每个点的局部密度
- 找出聚类中心和异端点
(无需优化迭代)
7. 贝叶斯决策准则的优缺点
-
优点:
稳定,强壮,简单 -
缺点:
一旦,条件不独立,GG
8. SOM的拓扑结构
【1】一维的:

【2】二维的

9. C4.5相对于ID3的优胜之处
【1】用了信息增益比例
【2】扩充到数值属性
【3】处理具有缺失样本的时候用平均值代替
【4】K次迭代交叉校验
计算题
1. 卡方检验
期望是:横平均
打横计算期望,然后计算:
x2=∑(xi−x期望)2x期望x^2 = \sum \frac{(x_i - x_{期望})^2}{x_{期望}}x2=∑x期望(xi−x期望)2
查表,解决。
2. 贝叶斯分类
第一步,你先把标签筛选出来,然后,计算
- P(C∣Label)=SumC&LabelSumLabelP(C|Label)=\frac{Sum_{C\&Label}}{Sum_{Label}}P(C∣Label)=SumLabelSumC&Label
- P(Label)=SumLabelSumP(Label) = \frac{Sum_{Label}}{Sum}P(Label)=SumSumLabel
计算:P(Label)∗P(Ci∣Label)...P(Label)* P(C_i|Label)...P(Label)∗P(Ci∣Label)...
看哪种可能性更大
3. Kmeans的计算过程
【1】随机得出一个数作为中心点
【2】计算每一个样本点到中心点的欧氏距离
【3】计算每一个类的平均值
【4】得到的新的中心,迭代…
4. K中心点的计算过程
【1】你先随机选择样本点作为中心点
【2】然后计算样本点到中心点的曼哈顿距离
【3】然后交换可能性,得到新的中心点策略
【4】计算在新的中心点策略下,每一种策略的代价和当前策略的代价的差
【5】采取负最大的那个代价差作为新的策略,然后迭代…
5. Apriori算法计算过程
先找出一级频繁项集,二级的,三级的,注意,在从二级到三级的时候,我们要检查:非频繁剪枝问题。然后罗列出频繁项集表,分析规则,注意,规则的两者A→BA\rightarrow BA→B,A和B必须处于同一个频繁项集当中,而且两者恰好能组成母集。
conf=sum母sumAconf = \frac{sum_{母}}{sum_A}conf=sumAsum母
6. 分箱,规范化的计算过程
-
等宽分箱:我们先求出最大值和最小值之间的差值是多大,然后根据要求的箱数,计算区间大小,然后分。不能保证每个箱子的样本数量一样多。
-
等深分箱:先对数据进行排序,然后根据要求的箱数,进行数量上划分,能做到:基本满足每个箱子的样本数量一样多。
-
Min-Max
V=DnewDold(V−minold)+minnewV = \frac{D_{new}}{D_{old}}(V-min_{old})+min_{new}V=DoldDnew(V−minold)+minnew -
Z-Score
V=V−VˉV标准差V=\frac{V-\bar{V}}{V_{标准差}}V=V标准差V−Vˉ -
小数定标:
注意,定标出来的,不能等于1.
[9,99] = [0.09,0.99]
[9,100] = [0.09, 0.1]
7. 距离函数计算(欧式,曼哈顿,切比雪夫,余弦)
假设两个向量:X={x1,x2}X=\{x_1,x_2\}X={x1,x2}和Y={y1,y2}Y=\{y_1,y_2\}Y={y1,y2}
-
欧式距离:
D=(x1−y1)2+(x2−y2)2D=\sqrt{(x_1 - y_1)^2+(x_2 - y_2)^2}D=(x1−y1)2+(x2−y2)2 -
曼哈顿距离:
D=∣x1−y1∣+∣x2−y2∣D=|x_1 - y_1| + |x_2 - y_2|D=∣x1−y1∣+∣x2−y2∣ -
切比雪夫距离:
D=max(∣x1−y1∣,∣x2−y2∣)D=max(|x_1 - y_1| ,|x_2 - y_2|)D=max(∣x1−y1∣,∣x2−y2∣) -
余弦距离:
D=XY∣X∣∣Y∣D = \frac{X Y}{|X||Y|}D=∣X∣∣Y∣XY
8. 贝叶斯信念网络的例子分析题目

(1)没有先验信息,问得心脏病的概率?
解:
能推导出心脏病的无非就是:锻炼事件和饮食事件,
P(HD=yes)P(HD = yes)P(HD=yes)=0.25∗0.7∗0.25+0.45∗0.7∗0.75+0.55∗0.3∗0.25+0.75∗0.3∗0.75=0.25*0.7*0.25+0.45*0.7*0.75+0.55*0.3*0.25+0.75*0.3*0.75=0.25∗0.7∗0.25+0.45∗0.7∗0.75+0.55∗0.3∗0.25+0.75∗0.3∗0.75
=0.49=0.49=0.49
(2)已知有高血压,问得心脏病的概率?
P(BP=high)=0.5185P(BP=high)=0.5185P(BP=high)=0.5185
P(HD=yes∣BP=high)=P(HD=yes&BP=high)∗P(HD=yes)P(BP=high)P(HD=yes|BP=high)=\frac{P(HD=yes \& BP=high)*P(HD=yes)}{P(BP=high)} P(HD=yes∣BP=high)=P(BP=high)P(HD=yes&BP=high)∗P(HD=yes)
=0.85∗0.490.5185=\frac{0.85*0.49}{0.5185}=0.51850.85∗0.49
本文深入探讨了SVM、KMeans、决策树、SOM算法及其优缺点。SVM通过非线性映射处理小样本问题,但对大样本处理效率较低;KMeans在处理类区分明显数据时效果良好,但对类不明显或异常点处理不足。决策树以信息熵为基础,通过最大信息增益选择分裂属性。SOM算法则解决了KMeans的离群点问题。同时,文章还介绍了C4.5对ID3的改进,如信息增益比例、数值属性处理等,并简述了贝叶斯决策准则及其在条件独立性上的局限。此外,还涵盖了卡方检验、贝叶斯分类、K-means和K中心点的计算过程以及各种距离函数。最后,通过实例分析了贝叶斯信念网络在心脏病概率计算中的应用。
1332

被折叠的 条评论
为什么被折叠?



