机器学习作业题

最新推荐文章于 2022-07-30 20:50:39 发布

转载最新推荐文章于 2022-07-30 20:50:39 发布 · 1.9k 阅读

8 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/leonardju/p/9235919.html

文章标签：

#数据库 #数据结构与算法 #人工智能

1. 什么是机器学习？机器学习与数据挖掘十大经典算法是哪些算法？（10分）

答：机器学习这门学科所关注的问题是：计算机程序如何随着经验积累自动提高性能。机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。
十大经典算法是: 1. C4.5 2. K-means 3.SVM 4. The apriori algorithm 5.最大期望（EM）算法 6.pageRank 7. AdaBoost 8.k-NN 9.朴素贝叶斯算法 10.CART 分类和回归

2. 数据库有如下5个事务，设min_sup＝60％。

(a) 使用apriori算法找出频繁项集（15）

(b) 使用FP-tree算法找出频繁项集。（10）

答：(a) Apriori 算法如下：
f:4 c:4 m:3 y:3 i:3

(b)FP-tree 算法如下：
FP-tree 步骤：
Step 1:遍历一次数据库，导出1项频繁项的集合和支持度，降序排序。
Step 2:构造FP-tree。
Step 3:根据步骤二得到的FP-tree，为1项频繁项集中的每一项构造FP-tree。
Step 4:得到频繁模式。

f：4 c:4 m:3 y：3 i:3

3.根据下列训练数据进行分类（Class为类别）：

1) 若年收入属性分为<80，≥80两个类别，年龄属性分为≤30,31-50，≥50三个类别，请用ID3算法建立决策树；（15分）

2) 对X={性别=Female，年收入=90，年龄=32}用贝叶斯分类处理的结果是什么？（10分）

1)首先计算信息熵H(D)=-3/6 log(3/6)-3/6log(3/6)=log2=1
下面计算各个特征对数据集D的信息增益，分别以A1,A2,A3表示性别，年收入，年龄3个特征。
这里的D1表示划分为Male的数据,D2为划分为FeMale的数据。
g(D,A1)=H(D)-[3/6H(D1)+3/6H(D2)]=1-[3/6(-1/3 log(1/3)-2/3log(2/3)+3/6(-2/3 log(2/3)-1/3log(1/3)]=0.08
这里的D1表示年收入<80的数据，D2表示年收入>=80的数据。
g(D,A2)=H(D)-[2/6H(D1)+4/6H(D2)]=1-[2/6(0)+4/6(-3/4log(3/4)-1/4log(1/4)]=0.46
这里的D1，D2, D3分别表示年龄对应的数据。
g(D,A3)=H(D)-[2/6H(D1)+3/6H(D2)+1/6H(D3)]= 1-[2/6(0)+3/6(-1/2log(1/2)-1/2log(1/2))+1/6(0)]=0.5
g(D,A3)最大，故选择A3作为最优特征。

（2）样本 X={性别=Female，年收入=90，年龄=32}
P（p）=3/6=0.5
P（n）=3/6=0.5
P(性别=Female|p)=2/3 P(性别=Female|n)=1/3
P(年收入>=90|p)=2/3, P(年收入>=90|n)=1/3, P(年龄>=32|p)=1/3
P(年龄>=32|n)=1
ps:年龄落在哪个区间，概率就是区间的概率。

2/27>1/18，所以结果是YES。

4.如下8个点聚为三类：

A1(1,2)，A2(3,1)，A3(8,4)，B1(5,8)，B2(4,1)，B3(6,4)，C1(3,5)，C2(4,9)，距离函数是欧氏距离，并假设初始中心为A1，B1，C1.。

(1)采用K均值算法，求在第一次循环后的三个聚类中心；求最后三个类；(15)

(2)采用系统（层次）聚类法聚为三类。（10）

解：

(1)
D(A1,A2)=2.24 D(B1,A2)=7.28 D(C1,A2)=4
D(A1,A3)=7.28 D(B1,A3)=5 D(C1,A3)=5.10
D(A1,B2)=3.16 D(B1,B2)=7.07 D(C1,B2)=4.12
D(A1,B3)=5.39 D(B1,B3)=4.12 D(C1,B3)=3.16
D(A1,C2)=7.62 D(B1,C2)=1.41 D(C1,C2)= 4.12
第一次循环以后的三个聚类为 (A1,A2,B2) (B1,A3,C2) (C1,B3)
所以聚类中心为（2.67,1.33） (5.67,7) (4.5,4.5)

最后三个类为(A1,A2,B2) (C1,B3,A3) (C2,B1) ps：通过画图观察分布，只需要计算部分点。
(2)D(A1,A2)=2.24 D(A1,A3)=7.28 D(A1,B1)=7.21 D(A1,B2)=3.16 D(A1,B3)=5.39 D(A1,C1)=3.61 D(A1,C2)=7.62

D(A2,B1)=7.28 D(A2,B2)=1 D(A2,B3)=4.24 D(A2,C1)=4 D(A2,C2)=8.06
D(A3,B1)=5 D(A3,B2)=5 D(A3,B3)=2 D(A3,C1)=5.10 D(A3,C2)=6.40
D(B1,B2)=7.07 D(B1,B3)=4.12 D(B1,C1)=3.61 D(B1,C2)=1.414
D(B2,B3)=3.16 D(B2,C1)=4.12 D(B2,C2)=8
D(B3,C1)=3.16 D(B3,C2)=5.39
D(C1,C2)=4.12
最小距离为1的两个类A2，B2合并。
重新计算以后，距离最小的为1.414 B1,C2合并.
依次类推，找点到集合中最近的点。A3,B3合并
A1和（A2,B2）合并。
C1和 (A3,B3) 合并。
最终分类（A1,A2,B2）（C2,B1） (C1,A3,B3)

再一次感谢您花费时间阅读， (Ctrl+Alt+N) 开始撰写新的文稿吧！祝您在这里记录、阅读、分享愉快!

转载于:https://www.cnblogs.com/leonardju/p/9235919.html