【数据挖掘】期末复习(样卷题目+少量知识点)

目录

第一章 绪论

1、填空题

(1)从技术层面上看,数据挖掘是( )。从商业层面看,数据挖掘是( )。

答:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息的过程。
一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

(2)数据挖掘所得到的信息具有( )、有效和实用三个特征。

答:先前未知。

2、数据挖掘在生活场景中的应用

在这里插入图片描述

3、区分数据挖掘和查询

数据挖掘和传统数据分析方法(如:查询、报表、联机应用分析等)有本质区别。数据挖掘是没有明确前提下去挖掘信息和 发现知识。
例:
在一句话中找出人名是数据挖掘,在表格中找出人民是查询

第二章 数据处理基础

1、填空题

(1)数据是( ),属性分为( )。

答:数据对象及其属性的集合;标称和序数属性、区间和比率属性。

2、计算题

(1)计算相似度量

老师给的范围:
距离度量(曼哈顿、欧式):
在这里插入图片描述

相似系数(余弦相似度):
在这里插入图片描述

二值属性的相似性(简单匹配相似度关系数 d、s)
Jaccard系数:
在这里插入图片描述

例题1:

答:

例题2:

答:

(2)数据统计特征计算

记公式:
算术平均数
加权算术均值
截断均值:丢弃高端和低端(p/2)%的数据,再算均值。
中位数
四分位数
中列数:(max+min)/2
众数

答:

3、问答题

(1)为什么要数据预处理?列出三种常用的预处理技术?

答:数据预处理的目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性。

预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的(填充缺失值、去除噪声并识别离散点、纠正数据中的不一致值)
②数据集成(聚合):对数据进行聚合,将两个或多个数据源的数据,存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。

4、噪声数据的平滑方法

(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑

箱越深、宽度越大,平滑效果越好。

(2)聚类:删除离群点
(3)回归:找适合的函数

5、数据变换

A、规范化

规范化是将原来的度量值转换为无量纲的值。(按比例缩放,映射到一个新的值域中)
(1)最小-最大规范化(转化为【0,1】范围内)
(2)z-score规范化(概率论的标准化)
(3)小数定标规范化(转化为”零点几×10的n次方“的格式)

B、特征构造

从原始特征船舰新的特征集。

C、数据离散化

利用分类值标记替换连续属性的数值。分为监督和非监督离散化。
无监督离散方法:(1)等宽(2)等频(3)基于聚类分析。
有监督离散方法:(1)基于熵:自顶向下

6、数据归约

A、抽样

压缩行数

有三种抽样方法。有放回、无放回、分层(p36)

B、特征选择

压缩列数

理想的特征子集:每个有价值的非目标特征应与目标特征强相关,而非目标特征之间不相关或者弱相关。

第三章 分类与回归

1、填空题

(1)评估分类模型准确率的方法包括:( )、( )和随机子抽样的方法。

答:保持方法、k-折交叉验证。

2、判断题

(1)回归预测输出的是连续取值( )

答:√
分类预测输出:离散类别值(预测一个类)。回归预测输出的是连续取值。

(2)KNN分类方法需要事先建模。( )

答:×
KNN是消极学习方法,不用事先建模。基本步骤:
1 算距离。给定测试对象,计算它与训练集中每个对象的距离;
2 找邻居。圈定距离最近的 k 个训练对象,作为测试对象的近邻。
3 做分类。 根据这k个近邻归属的主要类别,来对测试对象分类。

(3)AdaBoost 算法是一种将多个分类器聚集在一起来提高分类准确率的算法。( )

答:√

### 山东大学软件学院深度学习期末考试复习要点 #### 名词解释 针对山东大学2022-2023学年的深度学习课程,以下是几个重要的概念定义: - **梯度衰减**:指在反向传播过程中,随着层数增加,权重更新量逐渐变小的现象。这可能导致深层网络训练困难[^3]。 - **分布式假设**:认为自然界的信号通常可以被表示成少量基本成分的组合形式。这一原理广泛应用于特征提取领域。 - **梯度消失**:当激活函数导数值过小时,在多层神经网络中通过链式法则累积后的梯度过分缩小,使得参数难以有效调整。 - **随机梯度下降法 (SGD)**:一种优化算法,每次迭代仅使用单一本或一小批本估计全局梯度方向来更新模型参数,从而加速收敛并跳出局部极值点。 #### 简答题重点 对于简答题部分,考生应重点关注以下几个方面: - **损失函数的作用及其种类** - 定义:用于量化预测值与真实标签之间差异程度的一种度量方式;常见的有均方误差(MSE)和交叉熵(Cross Entropy Loss)[^3]。 - **池化操作解析** - 描述了一种降采技术,旨在减少空间维度的同时保留重要信息。最大池化(Max Pooling)能够捕捉最显著特征,而平均池化(Average Pooling)则倾向于平滑处理图像数据。 - **Batch Normalization介绍** - 是为了缓解内部协变量转移问题提出的正则化方法之一。其核心在于标准化每批次输入到下一层的数据分布,加快训练速度且提高泛化能力。 - 积神经网络擅长于处理固定大小的空间结构化数据集,如图片分类任务;相比之下,循环神经网络更适合序列建模场景下的时间依赖关系挖掘工作。 - **阶跃函数vs Sigmoid函数比较** - 尽管两者都属于非线性变换工具箱成员,但是前者输出只有两个离散状态{0,1},后者则是连续区间(0,1),适用于概率型输出场合。 - **LSTM架构详解** - 长短期记忆单元由遗忘门(Forgot Gate)、输入门(Input Gate)以及输出(Output Gate)构成,共同协作实现对历史信息的选择性保存与传递功能。 #### 计算题示例 关于给定的具体计算题目`f(a,b,c)=5*(a+b*c)`: 1. 当`a=7`, `b=5`, `c=3`时, ```python result = f(7, 5, 3) = 5 * (7 + 5*3) = 5 * 22 = 110 ``` 2. 对各变量求偏导数: - ∂f/∂a = 5 - ∂f/∂b = 5*c = 15 - ∂f/∂c = 5*b = 25 这些知识点覆盖了大部分可能出现在试上的理论基础和技术细节。除了上述内容外,还应该关注最新的研究进展和发展趋势,特别是那些尚未纳入教材但已在实际应用中取得良好效果的新颖技术和框架。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值