此文章是本人结合课程内容和网上资料整理,难免有误差,请给参考。
另外我发现两个规律:
1、课后题的关键字在课件里面都找不到,或者课件的叫法和题目叫法不一致。因此看会了课件不一定会这些题
2、课后题和考试题差异很大,会了课后题考试也一样蒙。大家有什么好的办法,请留言分析一下。
下面是第七章我整理的复习资料。
1、C4.5算法在构造决策树时使用的分裂属性是( )。
A信息增益
B信息增益率
C基尼指数
D不纯度降低值
2、下两种描述分别对应的分类算法的评价标准是( )。
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
APrecision, Recall
BRecall, Precision
CPrecision, ROC
DRecall, ROC
3、决策树中不包含的下列结点是( )。
A根结点(root node)
B内部结点(internal node)
C外部结点(external node)
D叶结点(leaf node)
4、以下算法属于基于规则的分类器的是( )。
AC4.5
BKNN
CNaive Bayes
DANN
5、以下关于随机森林算法的分析中错误的是( )
A随机森林算法的基本思想是构造多棵决策树,共同决策输出类别
B随机森林算法是单一决策树算法的延伸和改进
C在构建决策树的过程中需要剪枝
D整个森林的树的数量和每棵树的特征需要人为进行设定
6、下列哪些是分类与预测的不同之处( )。
A分类的作用是构造一系列能描述和区分数据类型或概念的模型
B分类被用作预测目标数据的类的标签
C预测是建立一个模型去预测缺失的或无效的并且通常是数字的数据值
D预测典型的应用是预测缺失的数字型数据的值
7、冗余属性的问题会影响决策树的准确率。 错
8、当一个数据对象同时属于多个类时,很难评估分类的准确率。通常在这种情况下,我们选择的分类器一般趋向于含有这样的特征:最小化计算开销,即使给予噪声数据或不完整数据也能准确预测,在大规模数据下仍然有效工作,提供简明易懂的结果。 正确
9、分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。正确
10、决策树是用样本的属性作为树的结构,用样本属性的取值作为树分支的结点。 错误
11、ID3算法无法避免过拟合问题,而C4.5算法则可以避免。