数据挖掘学习通期末作业1-5

最新推荐文章于 2024-12-24 23:10:14 发布

幡然醒悟0222

最新推荐文章于 2024-12-24 23:10:14 发布

阅读量3.7k

点赞数 12

文章标签：数据挖掘学习数据分析

本文链接：https://blog.youkuaiyun.com/weixin_43378197/article/details/131048163

版权

第1次作业

一. 单选题（共3题，3分）
1. (单选题, 1分)用于对随时间变化的数据对象的变化规律和趋势进行建模描述的数据挖掘研究称为（）。

    A. 数据预测
    B. 孤立点分析
    C. 数据分类
    D. 演化分析

我的答案: D :演化分析; 正确答案: D :演化分析;
1分
2. (单选题, 1分)如果在当前数据基础上,想看更为明细的数据,则应该执行的操作是（）

    A. 切块
    B. 旋转
    C. 下钻
    D. 上卷

我的答案: C :下钻; 正确答案: C :下钻;
1分
3. (单选题, 1分)以下关于OLTP和OLAP的区别，错误的是（）

    A. OLTP关注当前和本地的数据,而OLAP关注集成数据
    B. OLTP处理的数据是当前的详细数据,而OLAP处理历史数据
    C. OLTP的访问模式包括对数据的更新、查询,而OLAP进行只读操作
    D. OLTP面向市场,而OLAP面向客户

我的答案: D :OLTP面向市场,而OLAP面向客户; 正确答案: D :OLTP面向市场,而OLAP面向客户;
1分
二. 多选题（共2题，4分）
4. (多选题, 2分)数据的质量包括（）

    A. 精确性
    B. 完整性
    C. 可信性
    D. 一致性

我的答案: ABCD :精确性; 完整性; 可信性; 一致性; 正确答案: ABCD :精确性; 完整性; 可信性; 一致性;
2分
5. (多选题, 2分)关于OLTP和OLAP的区别，主要体现在哪些方面（）

    A. 访问模式
    B. 处理对象
    C. 软件操作
    D. 数据内容

我的答案: ABD :访问模式; 处理对象; 数据内容; 正确答案: ABD :访问模式; 处理对象; 数据内容;
2分
三. 填空题（共3题，3分）
6. (填空题, 1分)KDD又称为数据库中的知识发现，它的核心步骤是____________。

我的答案：
1分
(1) 数据挖掘

正确答案：
(1) 数据挖掘

7. (填空题, 1分)已知收入的最小值是2000，最大值是14000，那么对于4000，采用最小-最大规范化后得到的数值是_______________(保留3位小数，采取四舍五入)

我的答案：
1分
(1) 0.17

正确答案：
(1) 0.17

8. (填空题, 1分)数据挖掘任务中，对差异和极端特例的描述，揭示事物偏离常规的异常现象的这类知识，称为_____________。

我的答案：
1分
(1) 偏差知识

正确答案：
(1) 偏差型知识;偏差知识

———————————————

第2次作业

一. 单选题（共4题，4分）
1. (单选题, 1分)如果在当前数据基础上,想看汇总数据,则应该执行的操作是（）

    A. 切块
    B. 上卷
    C. 下钻
    D. 旋转

我的答案: B :上卷; 正确答案: B :上卷;
1分
2. (单选题, 1分)处理缺失值时，以下哪个不是自动填充的方式（）

    A. 使用随机值
    B. 使用属性的平均值
    C. 使用最可能的值
    D. 使用全局变量

我的答案: A :使用随机值; 正确答案: A :使用随机值;
1分
3. (单选题, 1分)下列哪项不属于数据仓库的特点（）

    A. 集成的
    B. 面型主题的
    C. 不变的
    D. 非易失的

我的答案: C :不变的; 正确答案: C :不变的;
1分
4. (单选题, 1分)数据挖掘中,如果希望以相对小的数据实现和原数据相同或接近的分析结果,则应该进行的预处理是（）

    A. 数据集成
    B. 数据规约
    C. 数据清理
    D. 数据分层

我的答案: B :数据规约; 正确答案: B :数据规约;
1分
二. 多选题（共2题，4分）
5. (多选题, 2分)关于数据挖掘,以下说法正确的是（）

    A. 数据挖掘是知识库中知识发现的核心步骤
    B. 数据挖掘中,数据质量和挖掘算法都重要
    C. 数据挖掘中,数据预处理是工作量最大的环节
    D. 数据挖掘中,更重要的是挖掘算法,优秀的数据挖掘算法可以弥补数据质量的缺陷,得到高质量的挖掘结果

我的答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节; 正确答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节;
2分
6. (多选题, 2分)数据规约包括（）

    A. 维规约
    B. 数据压缩
    C. 数据立方体聚集
    D. 数值规约

我的答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约; 正确答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约;
2分
三. 填空题（共2题，2分）
7. (填空题, 1分)从一组特征集合中,选出一部分作为最优特征的过程叫做_______________。

我的答案：
1分
(1) 特征选择

正确答案：
(1) 特征选择;特征选择和提取;特征选择或提取;特征选择与提取;特征提取

8. (填空题, 1分)原始数据是2247，采用小数定标后得到的数值是_______________(保留3位小数，采取四舍五入)

我的答案：
1分
(1) 0.23

正确答案：
(1) 0.23

———————————————

第3次作业

一. 单选题（共5题，5分）
1. (单选题, 1分)考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{2，4，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含（）

    A. 1，2，4，5
    B. 2，3，4，5
    C. 1，2，3，5
    D. 1，2，3，4

我的答案: A :1，2，4，5; 正确答案: A :1，2，4，5;
1分
2. (单选题, 1分)下面购物篮能够提取的3-项集的最大数量是多少（） ID 购买项 T1 牛奶，啤酒，尿布 T2 面包，黄油，牛奶 T3 牛奶，尿布，饼干 T4 面包，黄油，饼干 T5 啤酒，饼干，尿布 T6 牛奶，尿布，面包，黄油 T7 面包，黄油，尿布 T8 啤酒，尿布 T9 牛奶，尿布，面包，黄油 T10 啤酒，饼干

    A. 2
    B. 4
    C. 3
    D. 1

我的答案: C :3; 正确答案: C :3;
1分
3. (单选题, 1分)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？ ( )

    A. 分类
    B. 预测
    C. 关联规则挖掘
    D. 聚类

我的答案: C :关联规则挖掘; 正确答案: C :关联规则挖掘;
1分
4. (单选题, 1分)关于Apriori算法，以下哪句话是错误的（）。

    A. 频繁项集的子集一定是频繁项集
    B. 非频繁项集的超级一定是非频繁的
    C. 频繁项集的超级不一定是频繁项集
    D. 非频繁项集的子集一定是非繁项的

我的答案: D :非频繁项集的子集一定是非繁项的; 正确答案: D :非频繁项集的子集一定是非繁项的;
1分
5. (单选题, 1分)在关联规则挖掘中，用于标识关联规则需要满足的最低可靠性的指标是 ( )

    A. 最小准确度
    B. 最小提升度
    C. 最小可信度
    D. 最小支持度

我的答案: C :最小可信度; 正确答案: C :最小可信度;
1分
二. 多选题（共1题，2分）
6. (多选题, 2分)以下说法正确的是（）

    A. Apriori算法中候选解的产生采取自连接的方式
    B. 识别出所有频繁项集是Apriori算法的核心
    C. Apriori算法需要多次访问事务数据库
    D. FP-Growth算法相对于Apriori算法来说，对事务数据库的访问次数大大减少

我的答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说，对事务数据库的访问次数大大减少; 正确答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说，对事务数据库的访问次数大大减少;
2分
三. 填空题（共2题，3分）
7. (填空题, 1分)在Apriori算法候选项集的产生中，采取如下原则：如果一个项集不是频繁的, 将不产生/测试它的超集!该原则称为_____________。

我的答案：
1分
(1) 剪枝

正确答案：
(1) 剪枝;剪枝原则

8. (填空题, 2分)已知事务数据库中有5条数据，分别为 T1：{A，B，D，E}；T2：{A，B，C，E}；T3：{A，C，D}；T4：{B，C，E}；T5：{A，B，D, E}，假设存在一条关联规则 {B，E} => {C}，则该规则的支持度为____________。

我的答案：
2分
(1) 0.4

正确答案：
(1) 0.4;40%

———————————————

第4次作业

一. 单选题（共2题，2分）
1. (单选题, 1分)关于分类问题中，以下说法不正确的是（）

    A. 描述属性可以是离散的
    B. 类别属性可以是离散的
    C. 类别属性可以是连续的
    D. 描述属性可以是连续的

我的答案: C :类别属性可以是连续的; 正确答案: C :类别属性可以是连续的;
1分
2. (单选题, 1分)决策树中不包含一下哪种结点（）。

    A. 外部节点
    B. 叶节点
    C. 内部节点
    D. 根节点

我的答案: A :外部节点; 正确答案: A :外部节点;
1分
二. 多选题（共2题，4分）
3. (多选题, 2分)
关于决策树算法，以下说法正确的是（）

    A. C4.5相对于ID3算法，减少了对特征数目较多的属性的依赖
    B. ID3和C4.5算法原理简单，容易得到IF-Then的规则
    C. C4.5算法和ID3算法一样，不能处理连续型属性
    D. ID3算法依赖于特征数目较多的属性

我的答案: ABD :C4.5相对于ID3算法，减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单，容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性; 正确答案: ABD :C4.5相对于ID3算法，减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单，容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性;
2分
4. (多选题, 2分)
神经网络中，以下说法的正确的是（）

    A. Delta学习规则称为梯度法，主要是通过减少单元间的连接权重来减小实际输出与期望输出之间的误差
    B. 神经网络的学习主要包括网络结构的学习和连接权值的学习
    C. 神经网络既可以进行线性分类，又可以进行非线性分类
    D. BP神经网络是一个多层的前向神经网络

我的答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类，又可以进行非线性分类; BP神经网络是一个多层的前向神经网络; 正确答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类，又可以进行非线性分类; BP神经网络是一个多层的前向神经网络;
2分
三. 填空题（共7题，9分）
5. (填空题, 1分)BP神经网络包含输入层、输出层和_____________。

我的答案：
1分
(1) 隐藏层

正确答案：
(1) 隐层;隐含层;隐藏层;隐;隐含;隐藏

6. (填空题, 1分)决策树ID3算法中，采取____________作为属性选择的评价标准。

我的答案：
1分
(1) 信息增益

正确答案：
(1) 信息增益;最大信息增益

7. (填空题, 2分)

已知有如下关于是否贷款的数据，属性包括性别、收入和信誉度，如果采用ID3算法，则首先应该选择的属性是________________。

ID 性别收入信誉度贷款

1 男高高是

2 男高低是

3 男低高否

4 女高高是