这门怎么题库答案不全啊日 来简单学一下子来
第一次见这个提示 最后面两道题写不下了 看PDF吧
一、选择题(可多选)
- 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘
- A. 频繁模式挖掘:专注于发现数据中频繁出现的项集、序列或子结构。
- B. 分类和预测:用已标记数据训练模型,对新数据做类别判断或数值预测。
- C. 数据预处理:对原始数据做清洗、集成(合并多源数据)、变换(如归一化、离散化 )、维度规约(降维,减少特征数量 )、数值规约(压缩数值规模,如用均值替代细节值 )。
- D. 数据流挖掘:针对实时、连续的数据流,实时或近实时地挖掘模式、检测异常。
- 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)。
A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类
- 层次聚类:构建树状层级结构,通过合并或分裂逐步形成聚类,展现数据层次关系。
- 划分聚类:将数据硬性划分到互不重叠子集,每个对象仅属一个簇,如K-Means。
- 非互斥聚类:允许数据对象同时属于多个簇,突破“一对一”归属限制。
- 模糊聚类:用隶属度(0 - 1)表示对象属于各簇的程度,体现归属模糊性 。
- 下表是一个购物篮,假设支持度阈值为40%,其中(D)是频繁闭项集。
TID | 项 |
---|---|
1 | abc |
2 | abcd |
3 | bce |
4 | acde |
5 | de |
A. abc B. ad C.cd D.de
先算各选项项集支持度,支持度=包含项集的事务数/总事务数(总事务数为5 )。“de”出现在TID4、TID5,支持度为2/5 = 40%,满足阈值;且没有超集与它支持度相同,是频繁闭项集,选D。
- 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的哪类问题?(A)
A. 关联规则发现 B.聚类 C.分类 D.自然语言处理
- A. 关联规则发现:挖掘数据项之间的关联模式,找出“一个事件发生时另一个事件也大概率发生”的规则(如买啤酒→买尿布 )。
- B. 聚类:无监督地将数据划分成若干簇,让簇内数据相似、簇间数据差异大,实现数据的“自然分组”(如区分不同消费习惯的客群 )。
- C. 分类:用标记数据训练模型,对新数据判定类别(如区分垃圾邮件/正常邮件 、识别客户是“高价值”或“低价值” )。
- D. 自然语言处理:让计算机理解、处理人类语言文本,涉及分词、情感分析、文本生成等(如聊天机器人理解问题、新闻文本分类 ),本题场景不涉及语言处理,故不选。
- (B)是一个观测值,它与其他观测值的差别很大,以至于怀疑它是由不同的机制产生的。
A. 边界点 B.离群点 C.核心点 D.质心
- 边界点:处于簇边缘区域,密度低于核心点、高于离群点,是划分簇边界的过渡性点。
- 离群点:与其他观测值差异极大,疑似由不同生成机制产生的异常数据点 。
- 核心点:在密度聚类(如DBSCAN)中,邻域内数据点数量满足阈值,是簇的“核心组成”。
- 质心:聚类里代表簇中心的点(如K-Means的簇中心),是簇内点的“平均位置”。
-
影响聚类算法效果的主要原因有(ABC)。
A. 特征选取 B.模式相似性测度
C.分类准则 D.已知类别的样本质量 -
在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本有10万条数据,负样本只有1万条数据,以下最合适的处理方法是(D)。
A. 将负样本重复10次,生成10万样本量,打乱顺序参与分类
B.直接进行分类,可以最大限度地利用数据
C.从10万正样本中随机抽取1万参与分类
D.将负样本每个权重设置为10,正样本权重为1,参与训练过程
- A 重复负样本易过拟合
- B 直接分类因样本不均衡模型会偏向多数类(正样本)
- C 丢弃大量正样本浪费数据
- D 通过设置权重,让模型训练时重视少数类(负样本),合理解决不均衡问题,选 D。
-
在数据清理中,处理缺失值的方法是(ABCD)。
A. 估算 B.整列删除 C.变量删除 D.成对删除 -
Apriori算法的计算复杂度受(ABCD)影响。
A. 项数(维度) B.事务平均宽度 C.事务数 D.支持度例值 -
在关联规则中,有三个重要的指标:支持度(support)、可信度(confident)、提升度(lift),则对于规则的三个指标说法错误的是(C)。其中,表示所有的样本item数目。
- 支持度公式support=freq(X,Y)/Nsupport = freq(X,Y)/Nsupport=freq(X,Y)/N
- 置信度公式confident=freq(X,Y)/freq(X)confident = freq(X,Y)/freq(X)confident=freq(X,Y)/freq(X)
- 提升度公式lift=freq(X,Y)∗N/(freq(X)∗freq(Y))lift = freq(X,Y)*N/(freq(X)*freq(Y))lift=freq(X,Y)∗N/(freq(X)∗freq(Y))
- 下列方法中,可以用于特征降维的方法包括(ABC)。
A.主成分分析(PCA)
B.线性判别分析(LDA)
C.深度学习SparseAutoEncoder
D.最小二乘法
最小二乘法是用于回归拟合等的方法,不用于降维
- 关于线性回归的描述,以下错误的是(C)。
A.线性回归可以用于做连续值预测
B.线性回归模型通过最小化预测值与实际观测值之间的差异来确定最佳拟合直线。
C.线性回归假设自变量(预测变量)与因变量(响应变量)之间存在非线性关系,并尝试通过拟合一条直线或超平面来描述这种关系。
D.线性回归是一种用于建模两个或多个变量之间关系的统计方法。
线性回归假设自变量和因变量是线性关系
- 假设属性income的最大/最小值分别是12000元和98000元。利用最大/最小规范化的方法将属性的值映射到0~1的范围内。对属性 income,73600元将被转化为:(D)
A.0.821 B.1.224 C.1.458 D.0.716
最大/最小规范化公式为x′=(x−min)/(max−min)x' = (x - min)/(max - min)x′=(x−min)/(max−min),代入x=73600x = 73600x=73600 、min=12000min = 12000min=12000 、max=98000max = 98000max=98000 ,计算得(73600−12000)/(98000−12000)=61600/86000≈0.716(73600 - 12000)/(98000 - 12000)=61600/86000≈0.716(73600−12000)/(98000−12000)=61600/86000≈0.716 ,选D。
- 只有非零值才重要的二元属性被称作(C)。
A.计数属性 B.离散属性
C.非对称的二元属性 D.对称属性
- 非对称二元属性是只有非零值(出现)才被认为重要
- 对称二元属性是零值和非零值同样重要
- 计数属性侧重统计数量
- 离散属性是取值分散的属性
- 将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?(C)
A.频繁模式挖掘 B.分类与预测
C.数据预处理 D.数据流挖掘
- A. 频繁模式挖掘:从数据中挖掘频繁出现的项集、序列等模式。
- B. 分类与预测:用标记数据训练模型,对新数据分类或预测连续值。
- C. 数据预处理:对原始数据做集成、变换、维度规约、数值规约,为后续分析做准备。
- D. 数据流挖掘:针对实时、连续的数据流,动态挖掘模式,强调处理动态、高速数据。
- 下面哪种不属于数据预处理的方法?(C)
A.变量代换 B.离散化 C.聚集 D.估计遗漏值
聚集是将数据分组汇总,属于数据挖掘分析环节,不属于预处理
- 设X={1,2,3}X=\{1,2,3\}X={1,2,3}是频繁项集,则可由产生(C)个关联规则。
A.4 B.5 C.6 D.7
- 对于频繁项集X={1,2,3}X = \{1,2,3\}X={1,2,3},其非空真子集的数量决定关联规则数量。
- 一个含有(n)个元素的集合,非空真子集数量为2n−22^n - 22n−2。这里n=3n = 3n=3,则23−2=62^3−2 = 623−2=6。
- 具体来说,关联规则是从真子集到对应补集的规则,如{1}→{2,3}\{1\}→\{2,3\}{1}→{2,3} 、{2}→{1,3}\{2\}→\{1,3\}{2}→{1,3} 、{3}→{1,2}\{3\}→\{1,2\}{3}→{1,2} 、{1,2}→{3}\{1,2\}→\{3\}{1,2}→{3} 、{1,3}→{2}\{1,3\}→\{2\}{1,3}→{2}、{2,3}→{1}\{2,3\}→\{1\}{2,3}→{1} ,共6条。
- 一个对象的离群点得分是该对象周围密度的逆。这是基于(C)的离群点定义。
A.概率 B.邻近度 C.密度 D.聚类
- A. 概率:基于概率分布,离群点是出现概率极低(显著偏离分布)的数据点。
- B. 邻近度:依据数据点间距离/相似度,离群点是与多数点“邻近度低”(距离远、相似度小 )的点。
- C. 密度:通过周围数据密度判定,离群点是“周围密度显著低于其他点”的数据。
- D. 聚类:利用聚类结果,离群点是不归属任何簇、或归属“小簇/边缘簇”的点。
- 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3项集,在候选2项集中需要剪枝的是(BD)。
ID | 项集 |
---|---|
1. | 面包、牛奶 |
2. | 面包、尿布、啤酒、鸡蛋 |
3. | 牛奶、尿布、啤酒、可乐 |
4. | 面包、牛奶、尿布、啤酒 |
5. | 面包、牛奶、尿布、可乐 |
A. 啤酒、尿布 B.啤酒、面包 C.面包、尿布 D.啤酒、牛奶
- Apriori算法的剪枝依据是“如果一个项集是频繁的,那么它的所有子集也一定是频繁的;反之,如果一个项集的子集不是频繁的,那么该超集也不是频繁的,需要剪枝”。这里要产生支持度不小于3的候选3 - 项集,先看候选2 - 项集的支持度。
- 计算各候选2 - 项集的支持度(出现次数):
- 计算“啤酒、尿布”的支持度:在ID2、ID3、ID4中出现,支持度为3。
- 计算“啤酒、面包”的支持度:仅在ID2中出现,支持度为1。
- 计算“面包、尿布”的支持度:在ID2、ID4、ID5中出现,支持度为3。
- 计算“啤酒、牛奶”的支持度:仅在ID3中出现,支持度为1。
- 根据剪枝原理,因为“啤酒、面包”和“啤酒、牛奶”的支持度小于3,它们的超集(3 - 项集包含它们的)不可能是频繁的。
- 考虑值集{1,2,3,4,5,90}\{1,2,3,4,5,90\}{1,2,3,4,5,90},其截断均值(p=20%)(p=20\%)(p=20%)是(C)。
A.2 B.3 C.3.5 D.5
- 对于值集{1,2,3,4,5,90}\{1,2,3,4,5,90\}{1,2,3,4,5,90},数据个数n=6n = 6n=6。
- p=20%p = 20\%p=20%,则截断的比例是20%20\%20%,需要截断的数量为n×p=6×20%=1.2n\times p=6\times20\% = 1.2n×p=6×20%=1.2,四舍五入为111(即两端各截断111个数据)。
- 截断后的数据集合为{2,3,4,5}\{2,3,4,5\}{2,3,4,5}。
- 计算截断均值,即截断后数据的平均值:xˉ=2+3+4+54=144=3.5\bar{x}=\frac{2 + 3+4 + 5}{4}=\frac{14}{4}=3.5xˉ=42+3+4+5=414=3.5。
- 假设用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20.21.22,22.25,25,25,30,33、33、35.35,36,40、45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱的值为(A)。
A.18.3 B.22.6 C.26.8 D.27.9
箱的深度为3就是每个箱里面有3个数,那按顺序第二个箱就是16,19,20,算出来的平均数也就是18.3
- 下列哪个不是专门用于可视化时间/空间数据的技术?(B)
A.等高线图 B.饼图 C.曲面图 D.矢量场图
- 等高线图、曲面图、矢量场图可用于可视化时间/空间数据
- 饼图主要用于展示各部分占比关系,不是专门用于时间/空间数据可视化
-
根据规则集,灰熊属于什么类别?(C)
规则集:
A. 鸟 B.鱼 C.哺乳 D.爬行 -
神经网络分类器的特点包括(ABC)。
A.普适近似,精度较高
B.噪声敏感
C.训练非常耗时 -
标称类型数据可以利用的数学计算为(A)。
A.众数 B.中位数 C.均值 D.方差
- 标称类型数据是离散的、无序的类别数据
- 众数是指一组数据中出现次数最多的数值,可用于标称类型数据
- 中位数、均值、方差适用于数值型数据
- 假设某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是(AB)。
A.被重复的维度在模型中作用被加强
B.模型效果精度降低
C.如果所有特征都被重复一遍,则预测结果不发生变化
D.以上说法均错误
- 选项A:
- 在贝叶斯分类模型中,训练数据里两个维度重复表示,在计算条件概率等过程中,重复维度会被多次参与计算,其在模型中的作用会被加强。例如,假设原来一个维度X1X_1X1对分类的影响是基于其自身的概率分布,当有重复维度X1′X_1'X1′(与X1X_1X1相同)时,在计算P(X∣Y)P(X|Y)P(X∣Y)(XXX为特征,YYY为类别)时,这两个重复维度会使该特征相关的概率计算被放大,所以被重复的维度在模型中作用被加强,A正确。
- 选项B:
- 由于重复维度导致特征的“权重”异常(被错误放大),会使模型对数据的特征判断出现偏差,进而导致模型效果精度降低,B正确。
- 选项C:
- 如果所有特征都被重复一遍,在贝叶斯分类模型计算后验概率P(Y∣X)P(Y|X)P(Y∣X)时,因为特征维度的重复,计算出的概率结果会改变,预测结果也会发生变化,C错误。
- 关于K-Means算法,正确的描述是(B)
A.能找到任意形状的聚类
B.初始值不同,最终结果可能不同
C.每次迭代的时间复杂度是O(n2){{O}\left({{{n}}^{{2}}}\right)}O(n2),其中n是样本数量
D.不能使用核函数
- K - Means算法基于距离度量,倾向于找到球形的聚类,不能找到任意形状的聚类(比如对于非球形的复杂形状聚类,K - Means效果不好),A错误。
- K - Means算法的初始聚类中心(初始值)是随机选择的,不同的初始值可能导致最终收敛到不同的聚类结果,B正确。
- K - Means算法每次迭代的时间复杂度是O(nk)O(nk)O(nk),其中nnn是样本数量,kkk是聚类数,而不是O(n2)O(n^{2})O(n2),C错误。
- 存在核K - Means算法,是可以使用核函数的,通过核函数将数据映射到高维空间进行聚类,D错误。
- 考虑以下问题:假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显卡时需要花费3h来完成训练。而在测试过程中,单个数据需要花费2s。如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?(C)
A.少于 2s B.大于 2s C.仍是2s D.说不准
测试阶段Dropout加了也没用,所以时间是不会变的
- 下面哪些属于可视化高维数据技术?(ACD)
A.平行坐标系 B.直方图 C.散点图矩阵 D.切尔诺夫脸
直方图主要用于展示单变量数据的分布,不是高维数据可视化技术
- 以下关于感知机说法正确的是(C)。
A.在Batch Learning模式下,权重调整出现在学习每个样本之后
B.只要参数设置得当,感知机理论上可以解决各种分类问题
C.感知机的训练过程可以看作在误差空间进行梯度下降
D.感知机的激励函数必须采用门限函数
- 在Batch Learning(批学习)模式下,权重调整是在学习完一批样本之后,而不是每个样本之后,A错误。
- 感知机只能解决线性可分的分类问题,对于非线性可分问题无法解决,B错误。
- 感知机的训练过程是基于误差来调整权重,可看作在误差空间进行梯度下降以最小化误差,C正确。
- 感知机的激励函数通常采用门限函数,但不是必须,也可采用其他合适的非线性函数(不过经典感知机是门限函数 ),准确说不是“必须”,D错误。
- 在误差逆传播算法中,隐含层节点的误差信息应当(C)
A.根据自身的期望输出和实际输出的差值计算
B.根据所有输出层神经元的误差的均值计算
C.根据自身下游神经元的误差进行加权计算
D.根据自身下游神经元的误差的均值计算
- A选项:自身期望输出和实际输出的差值是输出层误差计算方式,不是隐含层,A错误。
- B选项:不是根据输出层神经元误差的均值,B错误。
- C选项:符合BP算法中隐含层误差计算逻辑,根据下游神经元误差加权计算,C正确。
- D选项:不是均值,D错误。
- 训练神经网络时,以下哪种激活函数最容易造成梯度消失?(B)
A.Tanh B.sigmoid C.ReLU D.leakyReLU
- sigmoid函数:其导数为f′(x)=f(x)(1−f(x))f^\prime(x)=f(x)(1 - f(x))f′(x)=f(x)(1−f(x)),取值范围是(0,0.25](0,0.25](0,0.25] 。在深度神经网络中,随着层数增加,梯度经过多次乘以这样小于111的导数,很容易逐渐趋近于000,造成梯度消失。
- Tanh函数:导数为f′(x)=1−f2(x)f^\prime(x)=1 - f^{2}(x)f′(x)=1−f2(x),取值范围是(0,1](0,1](0,1] ,相比sigmoid函数,梯度消失问题相对弱一些。
- ReLU函数:导数在正区间为111,在负区间为000,一定程度上缓解了梯度消失问题。
- leakyReLU函数:是ReLU的改进版,在负区间导数不为000(是一个很小的正数 ),也缓解了梯度消失问题。
- 关于数据预处理,以下说法错误的是(B)。
A.可以通过聚类分析方法找出离群点
B.数据质量的三个基本属性(指标)是正确性、精确性和完整性
C.聚类和回归算法可在数据预处理中做数据规约操作
D.数据集成包括内容集成和结构集成
数据质量的基本属性(指标)通常包括正确性、完整性、一致性、精确性、时效性等
-
如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。(D)
A.降低学习率,减少迭代次数
B.降低学习率,增加迭代次数
C.提高学习率,增加迭代次数
D.增加学习率,减少迭代次数 -
神经网络模型是受人脑的结构启发发明的。神经网络模型由很多神经元组成,每个神经元都接受输入,进行计算并输出结果,那么以下选项描述正确的是(B)。
A.每个神经元只有单一的输入和单一的输出
B.每个神经元有多个输入而只有一个输出
C.每个神经元只有一个输入而有多个输出
D.每个神经元有多个输入和多个输出
神经网络中的神经元通常会接收来自多个其他神经元的输入(通过突触连接),经过加权求和、激活函数等计算后,输出一个结果传递给下一层的神经元。
- 主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述正确的是(ABC)
A.主成分分析是一种无监督方法
B.主成分数量一定小于等于特征的数量
C.各个主成分之间相互正交
D.原始数据在第一主成分上的投影方差最小
原始数据在第一主成分上的投影方差最大
- 下列哪个不是数据对象的别名(C)。
A.样品 B.实例 C.维度 D.元组
维度是指数据的特征或属性,不是数据对象的别名,它是用来描述数据对象的一个方面。
- 数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法说法错误的是(A)。
A.PCA是最小绝对值误差意义下的最优正交变换
B.PCA第一个主成分拥有最大的方差
C.PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法
D.PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,从而消除模式特征之间的相关性、突出差异性
PCA 是在最小均方误差意义下的最优正交变换,并非最小绝对值误差意义下
- 逻辑回归为什么是一个分类算法而不是回归算法?(A)
A.是由于激活函数sigmod把回归问题转化成了二分类问题
B.是由于激活函数maxsoft把回归问题转化成了二分类问题
C.是由于激活函数Tanh把回归问题转化成了二分类问题
D.是由于激活函数Relu把回归问题转化成了二分类问题
- A:符合逻辑回归原理,因Sigmoid激活函数实现回归到分类的转化,A正确。
- B:Softmax(不是maxsoft )常用于多分类,不是逻辑回归二分类的激活函数,B错误。
- C:Tanh函数主要用于调整输出范围等,不是逻辑回归实现分类的关键激活函数,C错误。
- D:ReLU函数常用于解决梯度消失等,不是逻辑回归分类的激活函数,D错误。
- 以下关于逻辑回归说法错误的是(C)。
A.特征归一化有助于模型效果
B.逻辑回归是一种广义线性模型
C.逻辑回归相比最小二乘法分类器对异常值更敏感
D.逻辑回归可以看成只有输入层和输出层且输出层为单一神经元的神经网络
最小二乘法分类器对异常值更敏感,因为最小二乘法会最小化误差平方和,异常值的误差平方会很大,严重影响模型
- 在NumPy数组操作中,哪个概念描述的是"不同形状数组间执行算术运算的机制"? B
A. 向量化
B. 广播
C. 重塑
D. 索引
- A:向量化主要是指利用数组运算替代循环,提升计算效率,并非描述不同形状数组算术运算机制 。
- B:符合题意,广播用于处理不同形状数组间的算术运算 。
- C:重塑是改变数组的形状(如维度、元素排列等 ),和不同形状数组算术运算机制无关 。
- D:索引是用于访问数组中的元素或子数组,不是关于不同形状数组算术运算的机制 。
- 在数据统计分析中,箱线图(Boxplot)的箱体部分主要表示什么统计量? C
A) 数据全距
B) 数据均值
C) 数据四分位距
D) 数据标准差
- A:数据全距是最大值与最小值的差,对应箱线图的 whiskers(须)相关范围,不是箱体 。
- B:数据均值在箱线图中一般用线或点表示(若显示),不是箱体 。
- D:数据标准差是衡量数据离散程度的指标,箱线图箱体不表示标准差 。
- Pandas中,哪种数据结构最适合存储和操作带标签的一维数据? C
A) DataFrame
B) Panel
C) Series
D) Index
- A:DataFrame 是二维数据结构,用于存储表格型数据。
- B:Panel 主要用于三维数据,不是针对一维带标签数据。
- D:Index 是索引对象,用于标识 Series 或 DataFrame 的行或列。
- 下列哪种属性用数字表示符号或名称,但仅用于区分对象类别? C
A. 二元属性
B. 序数属性
C. 标称属性
D. 数值属性
- 二元属性:是只有两个取值(如0和1)的属性,主要用于表示是否存在等二元情况。
- 序数属性:其取值是有顺序的,除了区分类别还能体现顺序关系。
- 标称属性:用数字表示符号或名称,仅用于区分对象类别,没有顺序、距离等含义。
- 数值属性:是可以进行数值计算(如加减乘除等 )的属性。
- 余弦相似性主要用于度量哪种数据的相似性? C
A. 二元属性
B. 序数属性
C. 文档关键词向量
D. 混合类型属性
C选项符合余弦相似性的典型应用,用于度量文档关键词向量的相似性。
-
下列哪个统计量对噪声数据最敏感? C
A. 中位数
B. 众数
C. 均值
D. 四分位数 -
非对称二元属性中,通常如何编码重要状态? B
A. 用0表示重要状态
B. 用1表示重要状态(通常是稀有结果)
C. 必须对称编码(0和1等价)
D. 用负数表示重要状态 -
盒图(箱线图)中,异常值的判定依据是? B
A. 超出均值±2倍标准差
B. 超出Q1-1.5×IQR或Q3+1.5×IQR
C. 小于最小值或大于最大值
D. 与众数的距离超过阈值 -
在数据预处理中,以下哪项描述最准确地解释了“噪声数据”的来源? A
A. 数据采集设备故障或传输错误导致的随机误差
B. 属性命名不一致引起的冗余问题
C. 不同数据源的结构差异导致的不一致
D. 人为录入时故意省略部分数据值
- 属性命名不一致是冗余问题
- 不同数据源结构差异是不一致问题
- 人为故意省略数据值是缺失值问题
- 关于数据集成中的“实体识别”,以下说法正确的是?B
A. 用于检测重复元组并删除冗余记录
B. 解决不同数据源中相同属性的命名差异问题(如 customer_id 与 cust_no)
C. 通过分箱或回归技术处理数据中的离群点
D. 将数据从高维空间投影到低维空间以减少特征数量
- A选项:检测重复元组并删除冗余记录是重复数据删除,不是实体识别。
- C选项:通过分箱或回归技术处理离群点是数据预处理中处理离群点的方法,与实体识别无关。
- D选项:将数据从高维空间投影到低维空间减少特征数量是降维(如PCA),不是实体识别。
-
在数据变换策略中,“离散化”的主要目的是? C
A. 将数据缩放到特定区间(如 [0,1])以消除量纲影响
B. 构造新属性以增强数据表达能力
C. 将连续型数据转换为离散区间,适应分类算法需求
D. 对稀疏数据进行中心化处理以保留数据结构 -
回归分析主要用于解决什么问题? B
A. 预测离散型因变量
B. 研究因变量与自变量之间的统计关系
C. 处理图像分类任务
D. 降低数据维度 -
若因变量是二分类变量(如“是/否”),应选择哪种回归技术? C
A. 线性回归
B. 多项式回归
C. 逻辑回归
D. 岭回归
- A选项:线性回归用于因变量是连续型的情况。
- B选项:多项式回归也是针对连续因变量。
- D选项:岭回归主要用于解决线性回归的多重共线性问题,因变量是连续型。
-
关于一元线性回归的假设,以下哪项是错误的? B
A. 自变量与因变量需有线性关系
B. 对异常值不敏感
C. 需避免多重共线性
D. 通过最小二乘法估计参数 -
Apriori算法利用什么性质压缩搜索空间? C
A. 闭项集性质
B. 极大项集性质
C. 先验性质(频繁项集的子集必频繁)
D. 支持度单调性 -
FP-growth算法的核心思想是什么? B
A. 生成候选项集并剪枝
B. 将事务数据库压缩为FP树
C. 使用垂直数据格式
D. 基于抽样减少计算量
- 生成候选项集并剪枝是Apriori算法的特点
- C和D不是核心思想
-
以下关于极大频繁项集的定义,正确的是? B
A. 支持度最高的项集
B. 不存在包含它的频繁超项集
C. 其所有子集都是频繁的
D. 支持度等于最小支持度阈值 -
规则 A⇒B 的置信度如何计算? A
A. support_count(A∪B)/support_count(A)
B. support_count(A)/support_count(B)
C. support_count(A∪B)/总事务数
D. support_count(B)/support_count(A)
规则 A⇒BA \Rightarrow BA⇒B 的置信度计算公式为 confidence(A⇒B)=support_count(A∪B)support_count(A)\text{confidence}(A \Rightarrow B)=\frac{\text{support\_count}(A \cup B)}{\text{support\_count}(A)}confidence(A⇒B)=support_count(A)support_count(A∪B),表示在包含 AAA 的事务中,同时包含 BBB 的比例。
- 在决策树算法中,C4.5相比ID3的主要改进是什么? B
A. 使用信息增益作为属性选择度量
B. 引入增益率并支持连续属性和缺失值处理
C. 改用基尼指数作为属性选择度量
D. 取消了树剪枝步骤以简化算法
- A选项:ID3 也使用信息增益。
- C选项:基尼指数是 CART 算法的度量。
- D选项:C4.5 有剪枝步骤,不是取消。
- 支持向量机(SVM)的硬间隔最大化要求? B
A. 允许部分样本分类错误
B. 训练数据必须严格线性可分
C. 使用核函数映射到高维空间
D. 调整支持向量的权重
- A选项:允许部分样本分类错误是软间隔。
- C选项:核函数用于处理非线性可分情况,不是硬间隔要求。
- D选项:并非核心。
- 关于模型评估中的ROC曲线,以下描述正确的是? C
A. 横轴是召回率(Recall),纵轴是精度(Precision)
B. 曲线下面积(AUC)越小表示模型性能越好
C. 每个点对应不同分类阈值下的真正例率和假正例率
D. 主要用于处理类别不平衡问题
- A选项:ROC曲线横轴是假正例率(FPR),纵轴是真正例率(TPR,召回率)。
- B选项:AUC越大表示模型性能越好。
- D选项:ROC曲线主要用于评估模型在不同阈值下的分类性能。
- 随机森林算法中,构建单棵决策树的关键步骤是? B
A. 从原始训练集无放回抽样选取样本
B. 在分裂结点时随机选择部分特征进行划分
C. 所有树使用完全相同的训练样本和特征
D. 仅使用信息增益作为分裂标准
随机森林构建单棵决策树时,关键步骤是在分裂结点时随机选择部分特征进行划分(特征随机选择 ),同时样本是有放回抽样(袋外抽样 )。
- A选项:有放回。
- C选项:样本和特征都是随机选取,不是完全相同。
- D选项:分裂标准不止信息增益,还有基尼指数等。
- 正则化在机器学习模型选择中的作用是? B
A. 提高模型在训练集上的拟合能力
B. 通过添加惩罚项降低模型复杂度,控制过拟合
C. 直接优化验证集的准确率
D. 增加特征维度以提升模型表达能力
- 正则化会限制模型对训练集的过度拟合。
- 不能直接优化验证集准确率,是间接通过控制复杂度提升泛化能力。
- 正则化不增加特征维度。
- 关于无监督学习,以下描述正确的是? B
A. 需要预先标记数据类别
B. 主要功能是发现数据分布特点和离群样本
C. 适用于特征维度低的数据降维
D. 与监督学习的核心区别是模型复杂度更高
- 有监督学习需要预先标记类别,无监督不需要。
- 无监督学习可用于高维数据降维,不是仅低维。
- 与监督学习核心区别是有无标签。
- K-Means算法的核心缺点是什么? B
A. 无法处理高维数据
B. 必须预先指定簇数量且对噪声敏感
C. 计算复杂度高达 O(n²)
D. 只能使用欧氏距离度量相似性
K - Means 算法的核心缺点是必须预先指定簇数量(K 值),且对噪声和离群点敏感,会影响聚类结果。
- 层次聚类中“凝聚方法”的特点是什么? B
A. 从全数据集开始逐步分裂簇
B. 从单个对象开始逐步合并簇
C. 仅适用于凸形状的簇
D. 必须使用最长距离法度量簇间距离
- 从全数据集开始逐步分裂簇是分裂方法的特点
- 还适用于数据探索等
- 也可以用最小距离、平均距离等
-
DBSCAN算法中“核心点”的定义是? B
A. 任意两个对象密度可达的点
B. Eps邻域内对象数不少于MinPts的点
C. 落在其他核心点邻域内的点
D. 与所有对象距离均小于Eps的点 -
轮廓系数(Silhouette Coefficient)的作用是? C
A. 估计数据集的聚类趋势
B. 确定最佳簇数量
C. 衡量聚类结果的簇内紧凑度和簇间分离度
D. 计算聚类结果与真实标签的匹配度
- A选项:估计聚类趋势有其他方法(如Hopkins统计量 ),不是轮廓系数作用。
- B选项:并非核心。
- D选项:计算与真实标签匹配度是有监督评估指标(如ARI )的作用。
-
神经网络的基本组成单元是什么? C
A. 树突
B. 轴突
C. 神经元
D. 突触 -
感知机(Perceptron)的主要局限性是什么? A
A. 只能处理线性可分问题
B. 训练效率过高导致过拟合
C. 适用于多分类任务
D. 基于支持向量机原理
- B选项:并非主要。
- C选项:感知机主要用于二分类任务,不是多分类。
- D选项:感知机基于神经元模型,和支持向量机原理不同。
- BP神经网络中,反向传播算法的核心策略是什么? B
A. 随机初始化权重
B. 基于梯度下降调整参数
C. 使用卷积运算优化
D. 仅依赖正向传播计算
- A选项:随机初始化权重是初始化步骤。
- C选项:卷积运算用于卷积神经网络。
- D选项:反向传播依赖反向计算梯度,不是仅正向。
- 深度学习中,卷积神经网络(CNN)的“权值共享”机制的主要作用是什么? B
A. 增加网络参数数量以提高复杂度
B. 减少参数数量并保证特征识别一致性
C. 适用于序列数据处理
D. 加速梯度下降收敛
- A选项:权值共享是减少参数,不是增加。
- C选项:序列数据处理是循环神经网络(RNN)等擅长的,不是 CNN 权值共享的作用。
- D选项:权值共享主要影响参数和特征识别,不是加速梯度下降收敛。
- 以下哪种神经网络最适合处理时间序列数据(如语音或股票预测)? D
A. 多层感知机(MLP)
B. 卷积神经网络(CNN)
C. 生成对抗网络(GAN)
D. 循环神经网络(RNN)
- 循环神经网络(RNN)通过自身循环结构,能处理时间序列数据,捕捉序列中前后依赖关系,适合语音、股票预测等场景
- 多层感知机(MLP)适合简单非线性分类回归,不擅长序列
- 卷积神经网络(CNN)侧重空间特征提取
- 生成对抗网络(GAN)用于生成数据。
二、判断题
-
离群点可以是合法的数据对象或者值。(√)
-
关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(×)
关联规则挖掘需同时满足最小支持度和最小置信度
- K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动确定。(×)
K 均值是基于划分的聚类算法,需预先指定簇数量(K 值 ),且不是基于密度
-
如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。(√)
-
数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好地完成描述数据、预测数据等任务。(√)
-
数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。(√)
-
用于分类的离散化方法之间的根本区别在于是否使用类信息。(√)
-
特征提取技术并不依赖于特定的领域。(×)
特征提取技术依赖领域知识,不同领域(如医疗、图像 )数据特点不同,特征提取方式、目标有差异
-
定量属性可以是整数值或者是连续值。(√)
-
利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(√)
-
先验原理可以表述为:如果一个项集是频繁的,则包含它的所有项集也是频繁的。(×)
如果一个项集是频繁的,则其所有子集也频繁;若一个项集非频繁,则其所有超集也非频繁
-
分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(√)
-
贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(×)
贝叶斯法是已知先验概率和类条件概率,通过贝叶斯公式计算后验概率分类,且分类结果取决于后验概率最大的类
-
分类模型的误差大致分为两种:训练误差和泛化误差。(√)
-
在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(×)
聚类效果理想的情况是簇内相似性大、簇间差别大,此时聚类效果好
- 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(×)
K 均值中误差平方和越小,说明簇内样本越紧凑,聚类效果越好
-
线性回归模型由于自身的局限性只能描述变量间的线性关系。(√)
-
基于模型的聚类与基于分割的聚类相比,对数据分布有更好的描述性。(√)
-
具有较高的支持度的项集具有较高的置信度。(×)
支持度和置信度无必然正相关,高支持度项集置信度不一定高
-
可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。(√)
-
数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。(√)
-
逻辑回归等同于一个使用交叉熵loss,且没有隐藏层的神经网络。(√)
-
分类和回归都可用于预测,分类的输出是连续数值,而回归的输出是离散的类别值。(×)
分类输出离散类别,回归输出连续数值
- 皮尔逊相关系数可用来判断X和Y之间的因果关系。(×)
皮尔逊相关系数衡量线性相关程度,不反映因果关系
-
样品是数据对象的别名。(√)
-
杰卡德系数用来度量非对称的二进制属性的相似性。(√)
-
K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。(×)
K 均值聚类核心是将数据集划分为 K 个簇,使簇内样本相似度高、簇间低,会确定每个簇的中心点(质心 ),但 “给出每个数据对应的簇中心点” 表述不准确,质心是簇的代表,不是每个数据对应
-
离散属性总是具有有限个值。(√)
-
聚类是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(×)
描述的是分类(有监督,预测类标记 ),聚类是无监督,找数据内在结构,不预测类标记
-
K-Means++能够解决初始点影响聚类效果的问题。(√)
-
聚类分析可以看作一种非监督的分类。(√)
-
Python中,元组(Tuple)和字符串(String)都属于不可变数据类型。(√)
-
NumPy的广播机制(broadcasting)要求参与运算的两个数组必须具有完全相同的形状。(×)
NumPy 广播机制允许形状兼容(如维度可扩展匹配 )的数组运算,无需形状完全相同
-
Pandas的DataFrame数据结构可以看作是由多个共用同一个索引的Series组成的字典。(√)
-
Scikit-learn主要支持传统机器学习算法(如SVM、随机森林),不支持深度学习算法。(√)
-
序数属性的取值之间具有明确的数值差。(×)
序数属性取值有顺序关系,但无明确数值差(如 “低、中、高” )
-
混合类型属性的相似性度量需先对每种属性类型单独标准化。(√)
-
维(Dimension)、特征(Feature)和属性(Attribute)在数据挖掘中可互换使用。(√)
-
均值对噪声数据敏感,而中位数对噪声数据的鲁棒性更强。(√)
-
序数属性可计算算术均值以度量中心趋势。(×)
序数属性取值无数值意义,算术均值不适用,常用中位数等
-
散点图属于几何投影可视化技术,可展示二维数据分布。(√)
-
混合类型属性的相似性计算需对所有属性统一标准化后再度量。(×)
混合类型属性相似性计算需对不同类型(如数值、分类 )分别处理(编码、标准化等 )
-
数据预处理的必要性源于现实世界数据常存在噪声、缺失和不一致问题,高质量数据需满足准确性、完整性和一致性。(√)
-
在数据归约中,“维归约”通过抽样技术减少数据量,例如用随机子集代表整体数据集。(×)
“维归约” 是减少特征数量(如 PCA ),题目说的是 “样本归约”
-
多项式回归可以通过增加高次项拟合非线性数据,但可能导致过拟合。(√)
-
岭回归通过加入L1正则项剔除不重要的自变量,解决多重共线性问题。(×)
岭回归加入的是 L2 正则项,L1 正则项是 Lasso 回归的做法
-
在变量选择中,逐步回归法通过统计指标(如R²、AIC)自动添加或删除自变量。(√)
-
关联规则的支持度反映规则的有用性,置信度反映规则的确定性。(√)
-
极大频繁项集(Maximal Frequent Itemset)一定是闭频繁项集(Closed Itemset)。(√)
-
Apriori算法在挖掘k项频繁集时,需要扫描数据库k次。(√)
-
FP-growth算法在挖掘过程中不需要生成候选项集。(√)
-
提升度(Lift)> 1 表示规则中的项集具有正相关性。(√)
-
在决策树剪枝中,后剪枝方法先构建完整决策树,再自底向上进行剪枝。(√)
-
SVM处理非线性数据时,必须显式计算高维映射后的特征向量。(×)
SVM 处理非线性数据用核函数,无需显式计算高维映射特征
- k-折交叉验证中,当k等于样本总量时称为简单交叉验证。(×)
k - 折交叉验证中,k 等于样本总量时是留一交叉验证
- 袋装(Bagging)方法中,每个基分类器的投票权重根据其准确率动态调整。(×)
Bagging 中基分类器投票权重通常相等,AdaBoost 才动态调整权重
- 随机森林的Forest-RI方法通过属性线性组合创建新特征进行分裂。(×)
随机森林是随机选择属性子集分裂
- K-means++算法通过随机选择初始中心点,避免收敛到局部最优解。(×)
K - means++ 是按距离概率选初始中心点
- 在层次聚类中,“类平均法”以两类中心点的距离作为簇间距离。(×)
类平均法是用两类所有样本对的平均距离作簇间距离
-
DBSCAN算法能有效识别任意形状的簇,但对参数Eps和MinPts敏感。(√)
-
模糊C均值聚类(FCM)要求每个数据点严格属于单一簇。(×)
模糊 C 均值聚类(FCM)是让数据点以隶属度属于多个簇
- 霍普金斯统计量(Hopkins statistic)接近0.5时,表明数据具有显著聚类趋势。(×)
霍普金斯统计量接近 1 表明数据有显著聚类趋势,接近 0.5 说明无明显聚类趋势
-
神经网络可以用于分类任务和数值预测任务。(√)
-
BP神经网络的训练效率高且收敛速度快,适合大规模数据场景。(×)
BP 神经网络易陷入局部最优,训练效率不高,不适合大规模数据场景
-
深度学习模型参数越多,模型复杂度越高,但大数据可以降低过拟合风险。(√)
-
生成对抗网络(GAN)的训练依赖于生成模型和判别模型的相互博弈。(√)
-
卷积神经网络(CNN)的池化层主要用于增加特征图的维度以提升精度。(×)
池化层主要用于降维、保留关键特征、增强鲁棒性
三、简答题
- 基于正态分布的离群点检测
假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均值标准差为区间)之外,该数据对象即为离群点。
(1)利用最大似然估计求均值和标准差。
-
计算均值:
μ^=24+28.9+28.9+29+29.1+29.1+29.2+29.2+29.3+29.410\hat{\mu}=\frac{24 + 28.9+28.9+29+29.1+29.1+29.2+29.2+29.3+29.4}{10}μ^=1024+28.9+28.9+29+29.1+29.1+29.2+29.2+29.3+29.4
=285.110=28.51∘C=\frac{285.1}{10} = 28.51^{\circ}C=10285.1=28.51∘C -
计算标准差:
先算每个数据与均值的差的平方和:
(24−28.51)2+(28.9−28.51)2×2+(29−28.51)2+(29.1−28.51)2×2+(29.2−28.51)2×2+(29.3−28.51)2+(29.4−28.51)2(24 - 28.51)^2+(28.9 - 28.51)^2\times2+(29 - 28.51)^2+(29.1 - 28.51)^2\times2+(29.2 - 28.51)^2\times2+(29.3 - 28.51)^2+(29.4 - 28.51)^2(24−28.51)2+(28.9−28.51)2×2+(29−28.51)2+(29.1−28.51)2×2+(29.2−28.51)2×2+(29.3−28.51)2+(29.4−28.51)2
=20.3401+0.1521×2+0.2401+0.3481×2+0.4761×2+0.6241+0.7921= 20.3401+0.1521\times2 + 0.2401+0.3481\times2+0.4761\times2+0.6241+0.7921=20.3401+0.1521×2+0.2401+0.3481×2+0.4761×2+0.6241+0.7921
=20.3401+0.3042+0.2401+0.6962+0.9522+0.6241+0.7921= 20.3401 + 0.3042+0.2401+0.6962+0.9522+0.6241+0.7921=20.3401+0.3042+0.2401+0.6962+0.9522+0.6241+0.7921
=23.949= 23.949=23.949
σ^=23.94910=2.3949≈1.547∘C\hat{\sigma}=\sqrt{\frac{23.949}{10}}=\sqrt{2.3949}\approx1.547^{\circ}Cσ^=1023.949=2.3949≈1.547∘C
(2)寻找上述10个对象中的所有离群点。
每个看一下是否满足题目要求的条件,最后发现只有24℃是离群点
- 研究学习时间(xxx,小时)与考试成绩(yyy,分)的关系。现有5组样本数据:
xxx | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
yyy | 50 | 60 | 70 | 80 | 90 |
(1)参数估计:用最小二乘法求回归方程y=β0+β1xy=β_0+β_1xy=β0+β1x的系数β0β_0β0和β1β_1β1(给出计算过程)。
别用那个公式了,反正也记不下来,这个很明显能看出y=40+10xy=40+10xy=40+10x
(2)预测:若学习时间xxx=6 小时,预测考试成绩yyy。
带进去算得y=100y=100y=100
(3)拟合优度:计算判定系数R2R^2R2。
- 先计算∑i=15(yi−y^i)2\sum_{i = 1}^{5}(y_i-\hat{y}_i)^2∑i=15(yi−y^i)2(y^i\hat{y}_iy^i是预测值)和∑i=15(yi−yˉ)2\sum_{i = 1}^{5}(y_i-\bar{y})^2∑i=15(yi−yˉ)2:
- 当x1=1x_1 = 1x1=1,y^1=40+10×1=50\hat{y}_1=40 + 10\times1 = 50y^1=40+10×1=50;x2=2x_2 = 2x2=2,y^2=40+10×2=60\hat{y}_2=40 + 10\times2 = 60y^2=40+10×2=60;x3=3x_3 = 3x3=3,y^3=40+10×3=70\hat{y}_3=40 + 10\times3 = 70y^3=40+10×3=70;x4=4x_4 = 4x4=4,y^4=40+10×4=80\hat{y}_4=40 + 10\times4 = 80y^4=40+10×4=80;x5=5x_5 = 5x5=5,y^5=40+10×5=90\hat{y}_5=40 + 10\times5 = 90y^5=40+10×5=90。则∑i=15(yi−y^i)2=(50−50)2+(60−60)2+(70−70)2+(80−80)2+(90−90)2=0\sum_{i = 1}^{5}(y_i-\hat{y}_i)^2=(50 - 50)^2+(60 - 60)^2+(70 - 70)^2+(80 - 80)^2+(90 - 90)^2 = 0∑i=15(yi−y^i)2=(50−50)2+(60−60)2+(70−70)2+(80−80)2+(90−90)2=0。
- ∑i=15(yi−yˉ)2=(50−70)2+(60−70)2+(70−70)2+(80−70)2+(90−70)2=400+100+0+100+400=1000\sum_{i = 1}^{5}(y_i-\bar{y})^2=(50 - 70)^2+(60 - 70)^2+(70 - 70)^2+(80 - 70)^2+(90 - 70)^2=400 + 100+0 + 100 + 400 = 1000∑i=15(yi−yˉ)2=(50−70)2+(60−70)2+(70−70)2+(80−70)2+(90−70)2=400+100+0+100+400=1000。
- 判定系数R2=1−∑i=1n(yi−y^i)2∑i=1n(yi−yˉ)2=1−01000=1R^2 = 1-\frac{\sum_{i = 1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i = 1}^{n}(y_i-\bar{y})^2}=1-\frac{0}{1000}=1R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2=1−10000=1 。
上面这一串也记不下来,我说话你记住,拟合优度是干嘛的呢,就是你推出来的公式到实际数据的差距,类似于一个偏差值的方差,这题很明显是完全匹配的,所以就是最大值1
- 预测房价(yyy,万元)与房屋面积(x1x_1x1,㎡)和房龄(x2x_2x2,年)的关系。回归模型为:y=β0+β1x1+β2x2+ϵy=β_0+β_1x_1+β_2x_2+ϵy=β0+β1x1+β2x2+ϵ
已知正规方程组的解为:
{β0=50β1=0.8β2=−2\left\{{\begin{matrix}β_0=50\\β_1=0.8\\β_2=-2\\\end{matrix}}\right.⎩⎨⎧β0=50β1=0.8β2=−2
问题:
(1)预测:求面积x1x_1x1=100㎡、房龄x2x_2x2=5年的房价预测值yyy。
就按那个公式带进去,记得预测时ϵ\epsilonϵ看成0就行,所以就是120万元
(2)系数解释:说明β1β_1β1=0.8 和β2β_2β2=-2 的实际意义。
这不就看图说话吗,阅读理解跟得上都能写出来- β1=0.8\beta_1 = 0.8β1=0.8:在房龄x2x_2x2不变的情况下,房屋面积每增加1m21m^21m2,房价平均增加0.80.80.8万元 。
- β2=−2\beta_2=-2β2=−2:在房屋面积x1x_1x1不变的情况下,房龄每增加111年,房价平均减少222万元 。
(3)共线性问题:若x1x_1x1与x2x_2x2的相关系数为0.95,对模型有何影响?应如何处理?
- 影响:x1x_1x1与x2x_2x2相关系数0.950.950.95(接近1),说明存在较强共线性。会使回归系数估计值不稳定、标准误增大,可能导致系数符号异常或难以准确解释自变量对因变量的单独影响 。
- 处理方法:可采用剔除变量(如剔除相关性强的其中一个变量)、主成分分析(将相关变量合成新的不相关主成分)、正则化方法(如 Ridge 回归、Lasso 回归,加入正则化项约束系数)等方式处理 。
- Apriori算法在数据挖掘中被广泛使用,已知有5000名球迷看奥运会,看乒乓球比赛和看篮球比赛的人数分别如下表所示:
看乒乓球 | 没看乒乓球 | 合计(行) | |
---|---|---|---|
看篮球 | 2000 | 1750 | 3750 |
没看篮球 | 1000 | 250 | 1250 |
合计(列) | 3000 | 2000 | 5000 |
计算“看乒乓球→看篮球”的支持度比例(Support)、置信度比例(Confidence)、提升度(Lift)。
破防了 背吧家人们
- 支持度(Support)
- 公式:(Support(看乒乓球→看篮球)=\frac{同时看乒乓球和篮球的人数}{总人数})
- 计算:同时看乒乓球和篮球的人数是(2000),总人数(5000),所以(Support = \frac{2000}{5000}=0.4)。
- 置信度(Confidence)
- 公式:(Confidence(看乒乓球→看篮球)=\frac{同时看乒乓球和篮球的人数}{看乒乓球的人数})
- 计算:同时看乒乓球和篮球的人数(2000),看乒乓球的人数(3000),所以(Confidence=\frac{2000}{3000}=\frac{2}{3}\approx0.667)。
- 提升度(Lift)
- 公式:(Lift(看乒乓球→看篮球)=\frac{Confidence(看乒乓球→看篮球)}{看篮球的概率}),看篮球的概率(=\frac{看篮球的总人数}{总人数}=\frac{3750}{5000} = 0.75)。
- 计算:(Lift=\frac{\frac{2}{3}}{0.75}=\frac{\frac{2}{3}}{\frac{3}{4}}=\frac{8}{9}\approx0.889) 。
- 事务数据库(min_sup=40%):
T1: {A, B, C}
T2: {A, B, D}
T3: {A, C}
T4: {B, C}
T5: {A, B}
(1)列出所有频繁1项集和频繁2项集(支持度用分数表示)。
频繁陈项集就是陈个字母的组合的出现次数除以上面的总事务数也就是5(陈湘骥难绷)叫做支持度,这个支持度大于题目给的那个min_sup就行
总之1项集就是{A},{B},{C}\{A\},\{B\},\{C\}{A},{B},{C}的支持度都大于40%,所以都是频繁1项集
那同理,{A,B},{A,C},{B,C}\{A,B\},\{A,C\},\{B,C\}{A,B},{A,C},{B,C}为频繁2项集
(2)判断项集{A,B}是否为闭频繁项集,并说明理由。
闭频繁项集定义:若项集X是频繁项集,且不存在超集Y⊃XY\supset XY⊃X(Y也是频繁项集)使得Y与X支持度相等,则X是闭频繁项集。
查验后发现{A,B,C}\{A,B,C\}{A,B,C}是20%,{A,B,D}\{A,B,D\}{A,B,D}是20%,所以是闭频繁项集
(3)找出极大频繁项集(需写出推理过程)。
极大频繁项集是“自身频繁,且所有真超集不频繁”的项集。
- 先看频繁项集(1项集、2项集):
- 频繁1项集({A}{B}{C}\{A\}\{B\}\{C\}{A}{B}{C} ):它们的超集(如{A,B}\{A,B\}{A,B} )是频繁的,所以不是极大。
- 频繁2项集({A,B}{A,C}{B,C}\{A,B\}\{A,C\}\{B,C\}{A,B}{A,C}{B,C} ):检查其超集(3项集{A,B,C}\{A,B,C\}{A,B,C} ),支持度15(20%<40%)\frac{1}{5}(20\%\lt40\%)51(20%<40%),非频繁。因此这三个2项集无频繁超集,满足“自身频繁且超集不频繁”。
结论:极大频繁项集为{A,B}\boldsymbol{\{A,B\}}{A,B}、{A,C}\boldsymbol{\{A,C\}}{A,C}、{B,C}\boldsymbol{\{B,C\}}{B,C} 。
- 事务数据库(min_sup=50%):
T1: {牛奶, 面包}
T2: {面包, 尿布}
T3: {牛奶, 尿布}
T4: {面包, 牛奶, 尿布}
T5: {牛奶}
(1)写出Apriori算法求解频繁项集的过程(从L₁到L₃,需包含连接、剪枝步骤)。
1. 生成L1L_1L1(频繁1项集)
- 统计单个项支持度:
- 牛奶:出现在T1、T3、T4、T5T1、T3、T4、T5T1、T3、T4、T5 → 支持度45\frac{4}{5}54(事务数4≥3 ),加入L1L_1L1。
- 面包:出现在T1、T2、T4T1、T2、T4T1、T2、T4 → 支持度35\frac{3}{5}53(事务数3≥3 ),加入L1L_1L1。
- 尿布:出现在T2、T3、T4T2、T3、T4T2、T3、T4 → 支持度35\frac{3}{5}53(事务数3≥3 ),加入L1L_1L1。
- L1={{牛奶}(45),{面包}(35),{尿布}(35)}L_1 = \{\{牛奶\}(\frac{4}{5}), \{面包\}(\frac{3}{5}), \{尿布\}(\frac{3}{5})\}L1={{牛奶}(54),{面包}(53),{尿布}(53)}
2. 生成L2L_2L2(频繁2项集)
- 连接步骤:L1L_1L1自连接,生成候选2项集C2C_2C2:
C2={{牛奶,面包},{牛奶,尿布},{面包,尿布}}C_2 = \{\{牛奶,面包\}, \{牛奶,尿布\}, \{面包,尿布\}\}C2={{牛奶,面包},{牛奶,尿布},{面包,尿布}} - 剪枝步骤:检查候选集子集是否在L1L_1L1中(Apriori性质:频繁项集所有子集必频繁 )。这里子集都是1项集,均在L1L_1L1,无需剪枝。
- 计算支持度:
- {牛奶,面包}\{牛奶,面包\}{牛奶,面包}:出现在T1、T4T1、T4T1、T4 → 事务数2?不对,T1T1T1(牛奶,面包)、T4T4T4(面包,牛奶,尿布)→ 事务数3 → 支持度35\frac{3}{5}53(≥3 ),加入L2L_2L2。
- {牛奶,尿布}\{牛奶,尿布\}{牛奶,尿布}:出现在T3、T4T3、T4T3、T4 → 事务数2?T3T3T3(牛奶,尿布)、T4T4T4(面包,牛奶,尿布)→ 事务数3 → 支持度35\frac{3}{5}53(≥3 ),加入L2L_2L2。
- {面包,尿布}\{面包,尿布\}{面包,尿布}:出现在T2、T4T2、T4T2、T4 → 事务数2?T2T2T2(面包,尿布)、T4T4T4(面包,牛奶,尿布)→ 事务数3 → 支持度35\frac{3}{5}53(≥3 ),加入L2L_2L2。
- L2={{牛奶,面包}(35),{牛奶,尿布}(35),{面包,尿布}(35)}L_2 = \{\{牛奶,面包\}(\frac{3}{5}), \{牛奶,尿布\}(\frac{3}{5}), \{面包,尿布\}(\frac{3}{5})\}L2={{牛奶,面包}(53),{牛奶,尿布}(53),{面包,尿布}(53)}
3. 生成L3L_3L3(频繁3项集)
- 连接步骤:L2L_2L2自连接,生成候选3项集C3C_3C3:
C3={{牛奶,面包,尿布}}C_3 = \{\{牛奶,面包,尿布\}\}C3={{牛奶,面包,尿布}}(由{牛奶,面包}\{牛奶,面包\}{牛奶,面包}与{牛奶,尿布}\{牛奶,尿布\}{牛奶,尿布}连接,或{牛奶,面包}\{牛奶,面包\}{牛奶,面包}与{面包,尿布}\{面包,尿布\}{面包,尿布}连接,取并集 )。 - 剪枝步骤:检查子集是否在L2L_2L2中。子集{牛奶,面包}\{牛奶,面包\}{牛奶,面包}、{牛奶,尿布}\{牛奶,尿布\}{牛奶,尿布}、{面包,尿布}\{面包,尿布\}{面包,尿布}均在L2L_2L2,无需剪枝。
- 计算支持度:
{牛奶,面包,尿布}\{牛奶,面包,尿布\}{牛奶,面包,尿布}:仅出现在T4T4T4 → 事务数1(1<31<31<3 ),不满足KaTeX parse error: Expected 'EOF', got '_' at position 10: \text{min_̲sup},不加入L3L_3L3 。 - L3=∅L_3 = \emptysetL3=∅(无频繁3项集 )
(2)若最小置信度为75%,从频繁项集{牛奶, 面包}生成关联规则,并计算规则置信度。
频繁项集{牛奶,面包}\{牛奶,面包\}{牛奶,面包},生成关联规则:
- 规则1:牛奶→面包牛奶 → 面包牛奶→面包
置信度=支持度({牛奶,面包})支持度({牛奶})=3545=75%= \frac{支持度(\{牛奶,面包\})}{支持度(\{牛奶\})} = \frac{\frac{3}{5}}{\frac{4}{5}} = 75\%=支持度({牛奶})支持度({牛奶,面包})=5453=75% - 规则2:面包→牛奶面包 → 牛奶面包→牛奶
置信度=支持度({牛奶,面包})支持度({面包})=3535=100%= \frac{支持度(\{牛奶,面包\})}{支持度(\{面包\})} = \frac{\frac{3}{5}}{\frac{3}{5}} = 100\%=支持度({面包})支持度({牛奶,面包})=5353=100%
最小置信度75%,两条规则均满足。
- 事务数据库(min_sup=40%):
T1: {A, B, C}
T2: {A, C}
T3: {A, D}
T4: {B, C, E}
(1)按支持度降序排列项,并画出FP树结构(需包含项头表)。
-
统计支持度并排序:
- 总事务数444,KaTeX parse error: Expected 'EOF', got '_' at position 10: \text{min_̲sup}=40\%(事务数≥2 )。
- AAA(3次)、CCC(3次)、BBB(2次),D/ED/ED/E非频繁→ 降序:A,C,B\boldsymbol{A,C,B}A,C,B 。
-
项头表:
| 项 | 支持度(事务数) | FP树指针 |
|----|------------------|----------|
| AAA | 3 | 指向AAA节点 |
| CCC | 3 | 指向CCC节点 |
| BBB | 2 | 指向BBB节点 | -
FP树结构:
- 根→AAA(计数3),分支:A→B→CA→B→CA→B→C(计数1)、A→CA→CA→C(计数2);
- 根→BBB(计数1)→CCC(计数1) 。
(2)求项C的条件模式基,并基于此推导C的频繁项集。
-
CCC的条件模式基:
取所有含CCC的路径,去CCC留前缀+计数→ {{A,B}:1,{A}:2,{B}:1}\boldsymbol{\{\{A,B\}:1, \{A\}:2, \{B\}:1\}}{{A,B}:1,{A}:2,{B}:1} 。 -
推导频繁项集:
- 1项集:{C}\{C\}{C}(支持度3,频繁);
- 2项集:{A,C}\{A,C\}{A,C}(支持度3)、{B,C}\{B,C\}{B,C}(支持度2)→ 均频繁;
- 3项集:{A,B,C}\{A,B,C\}{A,B,C}(支持度1,非频繁)。
最终CCC的频繁项集:{C},{A,C},{B,C}\boldsymbol{\{C\}, \{A,C\}, \{B,C\}}{C},{A,C},{B,C} 。
- 给定规则:牛奶 → 尿布,统计信息如下:
支持度(牛奶, 尿布) = 0.4
支持度(牛奶) = 0.6
支持度(尿布) = 0.5
(1)计算规则置信度。
- 置信度公式:Confidence(牛奶→尿布)=Support(牛奶,尿布)Support(牛奶)Confidence(牛奶→尿布)=\frac{Support(牛奶,尿布)}{Support(牛奶)}Confidence(牛奶→尿布)=Support(牛奶)Support(牛奶,尿布)。
- 代入数据:Confidence=0.40.6=23≈0.667Confidence=\frac{0.4}{0.6}=\frac{2}{3}\approx0.667Confidence=0.60.4=32≈0.667。
(2)计算提升度(Lift),并解释其意义。
- 提升度公式:Lift(牛奶→尿布)=Support(牛奶,尿布)Support(牛奶)×Support(尿布)Lift(牛奶→尿布)=\frac{Support(牛奶,尿布)}{Support(牛奶)\times Support(尿布)}Lift(牛奶→尿布)=Support(牛奶)×Support(尿布)Support(牛奶,尿布)。
- 代入数据:Lift=0.40.6×0.5=0.40.3=43≈1.333Lift = \frac{0.4}{0.6\times0.5}=\frac{0.4}{0.3}=\frac{4}{3}\approx1.333Lift=0.6×0.50.4=0.30.4=34≈1.333。
- 意义:Lift>1> 1>1,说明“牛奶→尿布”规则不是随机发生的,购买牛奶对购买尿布有促进作用,二者存在正相关关联;Lift$ = 1,说明规则是随机的,无关联;Lift,说明规则是随机的,无关联;Lift,说明规则是随机的,无关联;Lift< 1$,说明购买牛奶会抑制购买尿布,负相关。
(3)若提升度=1.2,说明该规则是否有意义?为什么?
提升度大于1就说明有关联,所以有意义啊
- 认识数据
假设描述学生的信息包含以下属性:性别,籍贯,年龄。记录ppp,qqq和C1C_1C1,C2C_2C2的信息如下,分别求出记录和簇彼此之间的距离。
(1)记录p={男,广州,18}p = \{男, 广州, 18\}p={男,广州,18} 与 C1C_1C1
- 性别:C1C_1C1男计数252525、女计数555→ 性别分布“男”占优,ppp性别“男”→ 匹配(记000 )。
- 籍贯:C1C_1C1籍贯“广州”计数202020→ ppp籍贯“广州”→ 匹配(记000 )。
- 年龄:C1C_1C1年龄均值202020,ppp年龄181818→ 绝对差∣18−20∣=2\vert 18 - 20 \vert = 2∣18−20∣=2,占均值比例220=0.1\frac{2}{20} = 0.1202=0.1 。
总距离(简单累加,类别匹配为000,数值差占比为距离):0+0+0.1=0.1\boldsymbol{0 + 0 + 0.1 = 0.1}0+0+0.1=0.1
(2)记录ppp 与 C2C_2C2
- 性别:C2C_2C2男计数333、女计数121212→ 性别分布“女”占优,ppp性别“男”→ 不匹配(记111 )。
- 籍贯:C2C_2C2籍贯无“广州”(有汕头、深圳、韶关 )→ ppp籍贯“广州”→ 不匹配(记111 )。
- 年龄:C2C_2C2年龄均值242424,ppp年龄181818→ 绝对差∣18−24∣=6\vert 18 - 24 \vert = 6∣18−24∣=6,占比624=0.25\frac{6}{24} = 0.25246=0.25 。
总距离:1+1+0.25=2.25\boldsymbol{1 + 1 + 0.25 = 2.25}1+1+0.25=2.25
(3)记录q={女,韶关,20}q = \{女, 韶关, 20\}q={女,韶关,20} 与 C1C_1C1
- 性别:C1C_1C1性别“女”计数555→ qqq性别“女”→ 匹配(记000 )。
- 籍贯:C1C_1C1籍贯“韶关”计数444→ qqq籍贯“韶关”→ 匹配(记000 )。
- 年龄:C1C_1C1年龄均值202020,qqq年龄202020→ 差000→ 记000 。
总距离:0+0+0=0\boldsymbol{0 + 0 + 0 = 0}0+0+0=0
(4)记录qqq 与 C2C_2C2
- 性别:C2C_2C2性别“女”计数121212→ qqq性别“女”→ 匹配(记000 )。
- 籍贯:C2C_2C2籍贯“韶关”计数222→ qqq籍贯“韶关”→ 匹配(记000 )。
- 年龄:C2C_2C2年龄均值242424,qqq年龄202020→ 绝对差∣20−24∣=4\vert 20 - 24 \vert = 4∣20−24∣=4,占比424≈0.167\frac{4}{24} \approx 0.167244≈0.167 。
总距离:0+0+0.167≈0.167\boldsymbol{0 + 0 + 0.167 \approx 0.167}0+0+0.167≈0.167
- 已知:训练集合中垃圾邮件的比例为P(h+)=0.2;训练集合中正常邮件的比例为P(h-)=0.8;单词出现频率表如下:
分词 | 在垃圾邮件中出现的比例 | 在正常邮件中出现的比例 |
---|---|---|
免费 | 0.3 | 0.01 |
奖励 | 0.2 | 0.01 |
网站 | 0.2 | 0.2 |
求解:判断一封邮件D=<“免费”“奖励”“网站”>是否是垃圾邮件?
-
公式(朴素贝叶斯)
后验概率:
P(h+∣D)=P(D∣h+)P(h+)P(D)P(h+|D)=\frac{P(D|h+)P(h+)}{P(D)}P(h+∣D)=P(D)P(D∣h+)P(h+)
P(h−∣D)=P(D∣h−)P(h−)P(D)P(h-|D)=\frac{P(D|h-)P(h-)}{P(D)}P(h−∣D)=P(D)P(D∣h−)P(h−)
因P(D)P(D)P(D) 对两类计算相同,只需比较分子 P(D∣h+)P(h+)P(D|h+)P(h+)P(D∣h+)P(h+) 与 P(D∣h−)P(h−)P(D|h-)P(h-)P(D∣h−)P(h−) 。
其中 P(D∣h+)=P(免费∣h+)×P(奖励∣h+)×P(网站∣h+)P(D|h+) = P(免费|h+)×P(奖励|h+)×P(网站|h+)P(D∣h+)=P(免费∣h+)×P(奖励∣h+)×P(网站∣h+)(条件独立假设 ),同理 P(D∣h−)=P(免费∣h−)×P(奖励∣h−)×P(网站∣h−)P(D|h-) = P(免费|h-)×P(奖励|h-)×P(网站|h-)P(D∣h−)=P(免费∣h−)×P(奖励∣h−)×P(网站∣h−) 。 -
计算分子
-
垃圾邮件分子:
P(D∣h+)P(h+)=(0.3×0.2×0.2)×0.2=0.012×0.2=0.0024P(D|h+)P(h+) = (0.3×0.2×0.2)×0.2 = 0.012×0.2 = 0.0024P(D∣h+)P(h+)=(0.3×0.2×0.2)×0.2=0.012×0.2=0.0024 -
正常邮件分子:
P(D∣h−)P(h−)=(0.01×0.01×0.2)×0.8=0.00002×0.8=0.000016P(D|h-)P(h-) = (0.01×0.01×0.2)×0.8 = 0.00002×0.8 = 0.000016P(D∣h−)P(h−)=(0.01×0.01×0.2)×0.8=0.00002×0.8=0.000016
-
-
比较与结论
因 0.0024>0.0000160.0024 > 0.0000160.0024>0.000016,即 P(h+∣D)>P(h−∣D)P(h+|D) > P(h-|D)P(h+∣D)>P(h−∣D) ,所以邮件 DDD 是垃圾邮件 。
- 假设正常对象被分类为离群点的概率是0.01,而离群点被分类为离群点概率为0.99,如果99%的对象都是正常的,那么检测率和假警告率各为多少?(使用下面的定义)
检测率=检测出的离群点个数/离群点的总数
假警告率=假离群点个数/被分类为离群点的个数
-
计算检测出的离群点个数和假离群点个数
- 检测出的离群点个数:离群点被正确分类为离群点的数量,离群点有111个,概率0.990.990.99,所以检测出的离群点个数为1×0.99=0.991\times0.99 = 0.991×0.99=0.99。
- 假离群点个数:正常对象被错误分类为离群点的数量,正常对象有999999个,概率0.010.010.01,所以假离群点个数为99×0.01=0.9999\times0.01 = 0.9999×0.01=0.99。
- 被分类为离群点的个数:检测出的离群点个数 + 假离群点个数,即0.99+0.99=1.980.99 + 0.99 = 1.980.99+0.99=1.98。
-
计算检测率和假警告率
- 检测率:根据公式,检测率 = 检测出的离群点个数 / 离群点的总数,即0.99÷1=0.99=99%0.99\div1 = 0.99 = 99\%0.99÷1=0.99=99%。
- 假警告率:根据公式,假警告率 = 假离群点个数 / 被分类为离群点的个数,即0.99÷1.98=0.5=50%0.99\div1.98 = 0.5 = 50\%0.99÷1.98=0.5=50% 。
综上,检测率为99%\boldsymbol{99\%}99%,假警告率为50%\boldsymbol{50\%}50%。
- 从某超市顾客中随机抽取5名,他们的购物篮数据的二元0/1表示如下:
顾客号 | 面包 | 牛奶 | 尿布 | 啤酒 | 鸡蛋 | 可乐 |
---|---|---|---|---|---|---|
1 | 1 | 1 | 0 | 0 | 0 | 0 |
2 | 1 | 0 | 1 | 1 | 1 | 0 |
3 | 0 | 1 | 1 | 1 | 0 | 1 |
4 | 1 | 1 | 1 | 1 | 0 | 0 |
5 | 1 | 1 | 1 | 0 | 0 | 1 |
某学生依据这些数据做关联分析,考虑规则{牛奶,尿布}→{啤酒},请计算该规则的支持度(support)、置信度(confidence)。
-
明确概念公式
- 支持度(support):support(X→Y)=包含X∪Y的事务数总事务数support(X→Y)=\frac{包含X\cup Y的事务数}{总事务数}support(X→Y)=总事务数包含X∪Y的事务数
- 置信度(confidence):confidence(X→Y)=包含X∪Y的事务数包含X的事务数confidence(X→Y)=\frac{包含X\cup Y的事务数}{包含X的事务数}confidence(X→Y)=包含X的事务数包含X∪Y的事务数
其中X={牛奶,尿布}X = \{牛奶, 尿布\}X={牛奶,尿布},Y={啤酒}Y = \{啤酒\}Y={啤酒},总事务数n=5n = 5n=5 。
-
统计相关事务数
-
包含X∪YX\cup YX∪Y(牛奶、尿布、啤酒)的事务数:
逐行检查,顾客222(面包111、牛奶000… 不满足)、顾客333(面包000、牛奶111、尿布111、啤酒111→ 满足 )、顾客444(面包111、牛奶111、尿布111、啤酒111→ 满足 )、顾客555(啤酒000→ 不满足 )、顾客111(不满足 )。
满足的事务数为222(顾客333、444 )。 -
包含XXX(牛奶、尿布)的事务数:
顾客222(牛奶000→ 不满足 )、顾客333(满足 )、顾客444(满足 )、顾客555(满足 )、顾客111(不满足 )。
满足的事务数为333(顾客333、444、555 )。
-
-
计算支持度和置信度
- 支持度:support=25=0.4support = \frac{2}{5} = 0.4support=52=0.4
- 置信度:confidence=23≈0.667confidence = \frac{2}{3} \approx 0.667confidence=32≈0.667
- 相异性计算
给定两个元组(22,1,42,10)和(20,0,36,8):
(1)计算这两个对象之间的欧几里得距离。
(2)计算这两个对象之间的曼哈顿距离。
(3)使用 p=3p=3p=3,计算这两个对象之间的闵可夫斯基距离。
(4)计算这两个对象之间的上确界距离。
又是背公式,背吧背吧也没别的办法
设元组A=(22,1,42,10)A=(22, 1, 42, 10)A=(22,1,42,10),元组B=(20,0,36,8)B=(20, 0, 36, 8)B=(20,0,36,8),各维度差值Δ1=22−20=2\Delta_1 = 22 - 20 = 2Δ1=22−20=2,Δ2=1−0=1\Delta_2 = 1 - 0 = 1Δ2=1−0=1,Δ3=42−36=6\Delta_3 = 42 - 36 = 6Δ3=42−36=6,Δ4=10−8=2\Delta_4 = 10 - 8 = 2Δ4=10−8=2 。
(1)欧几里得距离
公式:d(A,B)=∑i=1n(Δi)2d(A,B)=\sqrt{\sum_{i = 1}^{n}(\Delta_i)^2}d(A,B)=∑i=1n(Δi)2
计算:d=22+12+62+22=4+1+36+4=45=35≈6.708d=\sqrt{2^2 + 1^2 + 6^2 + 2^2}=\sqrt{4 + 1 + 36 + 4}=\sqrt{45}=3\sqrt{5}\approx 6.708d=22+12+62+22=4+1+36+4=45=35≈6.708
(2)曼哈顿距离
公式:d(A,B)=∑i=1n∣Δi∣d(A,B)=\sum_{i = 1}^{n}\vert\Delta_i\vertd(A,B)=∑i=1n∣Δi∣
计算:d=∣2∣+∣1∣+∣6∣+∣2∣=2+1+6+2=11d = \vert2\vert + \vert1\vert + \vert6\vert + \vert2\vert = 2 + 1 + 6 + 2 = 11d=∣2∣+∣1∣+∣6∣+∣2∣=2+1+6+2=11
(3)闵可夫斯基距离(p=3p = 3p=3)
公式:d(A,B)=(∑i=1n∣Δi∣p)1pd(A,B)=(\sum_{i = 1}^{n}\vert\Delta_i\vert^p)^{\frac{1}{p}}d(A,B)=(∑i=1n∣Δi∣p)p1
计算:d=(23+13+63+23)13=(8+1+216+8)13=(233)13≈6.15d=(2^3 + 1^3 + 6^3 + 2^3)^{\frac{1}{3}}=(8 + 1 + 216 + 8)^{\frac{1}{3}}=(233)^{\frac{1}{3}}\approx 6.15d=(23+13+63+23)31=(8+1+216+8)31=(233)31≈6.15
(4)上确界距离(切比雪夫距离 )
公式:d(A,B)=max{∣Δi∣}d(A,B)=\max\{\vert\Delta_i\vert\}d(A,B)=max{∣Δi∣}
计算:∣Δi∣\vert\Delta_i\vert∣Δi∣ 分别为2,1,6,22,1,6,22,1,6,2,最大值为666,故d=6d = 6d=6
- 对于数据:{12,9,7,6,20,100,35,21,11,18,25,37},完成以下任务:
(1)计算它的平均值,20%的截断均值和中位数,并说明这三个统计特征在描述数据集方面的特点。
-
平均值:
计算:KaTeX parse error: Can't use function '\)' in math mode at position 75: … + 25 + 37}{12}\̲)̲
先求和:12+9+7+6+20+100+35+21+11+18+25+37=30112+9+7+6+20+100+35+21+11+18+25+37 = 30112+9+7+6+20+100+35+21+11+18+25+37=301,平均值xˉ=30112≈25.08\bar{x}=\frac{301}{12}\approx 25.08xˉ=12301≈25.08。
特点:反映数据总体平均水平,但受极端值(如100100100)影响大,极端值会拉高/拉低平均值,不能精准体现“典型”水平。 -
20%截断均值:
数据共121212个,20%20\%20%截断即去除两端各12×20%=2.412\times 20\% = 2.412×20%=2.4,向上取整后去除两端各个值。
排序后数据:6,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,100,去除前个(6,7,9)(6,7,9)(6,7,9)和后个(35,37,100)(35,37,100)(35,37,100),剩余11,12,18,20,21,2511,12,18,20,21,2511,12,18,20,21,25。
截断均值=11+12+18+20+21+256=1076≈17.83=\frac{11 + 12 + 18 + 20 + 21 + 25}{6}=\frac{107}{6}\approx 17.83=611+12+18+20+21+25=6107≈17.83。
特点:通过截断极端值,降低了极端值干扰,比平均值更稳健,更贴近数据“中间段”的集中趋势。 -
中位数:
排序后数据:6,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,100,共个(偶数个),中位数为中间两个数(第666、777个)的平均值,即18+202=19\frac{18 + 20}{2}=19218+20=19。
特点:不受极端值影响,反映数据“中间位置”水平,适合极端值干扰大的场景,但未利用所有数据信息。
(2)使用最小-最大规范方法将其中的6,100,35转换到[0,1]。
最小-最大规范公式:x′=x−minmax−minx'=\frac{x - \min}{\max - \min}x′=max−minx−min,其中min=6\min = 6min=6(数据中最小值),max=100\max = 100max=100(数据中最大值)。
- 对666:x′=6−6100−6=0x'=\frac{6 - 6}{100 - 6}=0x′=100−66−6=0
- 对100100100:x′=100−6100−6=1x'=\frac{100 - 6}{100 - 6}=1x′=100−6100−6=1
- 对353535:x′=35−6100−6=2994≈0.309x'=\frac{35 - 6}{100 - 6}=\frac{29}{94}\approx 0.309x′=100−635−6=9429≈0.309
(3)对数据按照深度为4进行划分,再写出按边界值进行平滑后的结果。
-
划分(排序后分组,深度444即分444组):
排序数据:6,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,1006,7,9,11,12,18,20,21,25,35,37,100,每组数量12÷4=312\div 4 = 312÷4=3个。
分组结果:
组111:6,7,96,7,96,7,9;组222:11,12,1811,12,1811,12,18;组333:20,21,2520,21,2520,21,25;组444:35,37,10035,37,10035,37,100 -
边界值平滑(用组内边界值替换非边界值,一般取组两端值):
组111:边界值666、999,平滑后6,6,96,6,96,6,9(中间777用边界值替换,规则不唯一,也可统一用两端值填充);
组222:边界值111111、181818,平滑后11,11,1811,11,1811,11,18(中间121212替换);
组333:边界值202020、252525,平滑后20,20,2520,20,2520,20,25(中间212121替换);
组444:边界值353535、100100100,平滑后35,35,10035,35,10035,35,100(中间373737替换)。
最终平滑结果(合并):6,6,9,11,11,18,20,20,25,35,35,1006,6,9,11,11,18,20,20,25,35,35,1006,6,9,11,11,18,20,20,25,35,35,100
-
假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
请计算:
(1)TP(将正类预测为正类数)
(2)FN(将正类预测为负类数)
(3)FP(将负类预测为正类数)
(4)TN(将负类预测为负类数)
(5)准确率(accuracy)
(6)精确率(precision)
(7)召回率(recall)- TP(True Positives,真正例):系统预测为正类且实际为正类的数量,题目中明确“其中只有40个是真正的正样本”,所以 TP=40TP = 40TP=40 。
- FN(False Negatives,假负例):实际为正类但被预测为负类的数量。总正样本有60个,FN=60−TP=60−40=20FN = 60 - TP = 60 - 40 = 20FN=60−TP=60−40=20 。
- FP(False Positives,假正例):实际为负类但被预测为正类的数量。系统预测出50个正样本,其中40个是真正的正样本,所以 FP=50−TP=50−40=10FP = 50 - TP = 50 - 40 = 10FP=50−TP=50−40=10 。
- TN(True Negatives,真负例):实际为负类且被预测为负类的数量。总负样本有40个,TN=40−FP=40−10=30TN = 40 - FP = 40 - 10 = 30TN=40−FP=40−10=30 。
- 准确率(Accuracy):公式为 Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=TP+TN+FP+FNTP+TN ,代入数值可得 Accuracy=40+3040+30+10+20=70100=0.7\text{Accuracy} = \frac{40 + 30}{40 + 30 + 10 + 20} = \frac{70}{100} = 0.7Accuracy=40+30+10+2040+30=10070=0.7 。
- 精确率(Precision):公式为 Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}Precision=TP+FPTP ,代入数值可得 Precision=4040+10=4050=0.8\text{Precision} = \frac{40}{40 + 10} = \frac{40}{50} = 0.8Precision=40+1040=5040=0.8 。
- 召回率(Recall):公式为 Recall=TPTP+FN\text{Recall} = \frac{TP}{TP + FN}Recall=TP+FNTP ,代入数值可得 Recall=4040+20=4060≈0.67\text{Recall} = \frac{40}{40 + 20} = \frac{40}{60} \approx 0.67Recall=40+2040=6040≈0.67 (保留两位小数 )。
- 综上,各指标结果依次为:TP=40TP = 40TP=40;FN=20FN = 20FN=20;FP=10FP = 10FP=10;TN=30TN = 30TN=30;准确率 =0.7= 0.7=0.7;精确率 =0.8= 0.8=0.8;召回率 ≈0.67\approx 0.67≈0.67 。
-
(1) 给定二分类混淆矩阵:
TP=40, FP=10, FN=20, TN=30
计算准确率(Accuracy)、召回率(Recall)和F1值(F1-score)。
- 准确率:Accuracy=TP+TNTP+TN+FP+FN=40+3040+30+10+20=0.7\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} = \frac{40 + 30}{40 + 30 + 10 + 20} = 0.7Accuracy=TP+TN+FP+FNTP+TN=40+30+10+2040+30=0.7
- 召回率:Recall=TPTP+FN=4040+20≈0.67\text{Recall} = \frac{TP}{TP + FN} = \frac{40}{40 + 20} \approx 0.67Recall=TP+FNTP=40+2040≈0.67
- F1F1F1值:F1=2×Precision×RecallPrecision+Recall\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}F1=Precision+Recall2×Precision×Recall,先算精确率Precision=TPTP+FP=4040+10=0.8\text{Precision} = \frac{TP}{TP + FP} = \frac{40}{40 + 10} = 0.8Precision=TP+FPTP=40+1040=0.8,再得F1=2×0.8×0.670.8+0.67≈0.73\text{F1} = \frac{2 \times 0.8 \times 0.67}{0.8 + 0.67} \approx 0.73F1=0.8+0.672×0.8×0.67≈0.73
(2) 简述ROC曲线的绘制步骤,并解释AUC的含义。
- 绘制步骤:
- 模型输出正类概率,对样本按概率排序;
- 逐个将样本概率设为阈值,计算对应TPRTPRTPR(=TPTP+FN=\frac{TP}{TP + FN}=TP+FNTP,召回率)和FPRFPRFPR(=FPFP+TN=\frac{FP}{FP + TN}=FP+TNFP);
- 以FPRFPRFPR为横轴、TPRTPRTPR为纵轴,描点连线得到ROCROCROC曲线。
- AUC含义:ROCROCROC曲线下面积,取值[0,1][0,1][0,1]。AUC=0.5AUC = 0.5AUC=0.5等价随机猜测,AUC>0.5AUC > 0.5AUC>0.5表示模型有区分能力,越接近111,区分能力越强。
(3) 什么是过拟合?在决策树中如何防止过拟合?
- 过拟合:模型学习过度,记住训练数据噪声/细节,导致训练集表现好、测试集泛化差。
- 决策树防过拟合方法:
- 预剪枝:限制树深度、设置叶子节点最小样本数、限制分裂所需最小增益等;
- 后剪枝:生成完整树后,从叶向根剪枝,去除对泛化无帮助的分支。
(4) 现有数据集采用5折交叉验证:
描述第2折的训练集和验证集如何划分。
为什么交叉验证可以用于模型选择?
- 第2折划分:将数据集随机等分为555份,第222份为验证集,其余444份(第111、333、444、555份)为训练集。
- 交叉验证用于模型选择原因:
多次划分训练/验证集,评估模型在不同数据子集的泛化能力,减少单次划分偶然性,更全面选稳定、泛化好的模型。
-
证明反向传播公式
已知条件:
神经网络结构:输入层 → 隐藏层(第 lll 层)→ 输出层(第 kkk 层)
激活函数:Sigmoid ,其导数 σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))σ′(z)=σ(z)(1−σ(z))
损失函数:均方误差 L=12(y−y^)2L = \frac{1}{2}(y - \hat{y})^2L=21(y−y^)2,其中 y^\hat{y}y^ 为输出层预测值,yyy 为真实标签
符号定义:
zj(l)z_j^{(l)}zj(l):第 lll 层神经元 jjj 的预激活值(加权输入)
aj(l)a_j^{(l)}aj(l):第 lll 层神经元 jjj 的激活输出
wij(l)w_{ij}^{(l)}wij(l):连接第 lll 层神经元 jjj 与第 l+1l+1l+1 层神经元 iii 的权重
δj(l)\delta_j^{(l)}δj(l):输出层误差项
待证明公式:
隐藏层误差项满足:δj(l)=σ′(zj(l))∑iwij(l)δi(l+1)\delta_j^{(l)} = \sigma'(z_j^{(l)}) \sum_{i} w_{ij}^{(l)} \delta_i^{(l+1)}δj(l)=σ′(zj(l))∑iwij(l)δi(l+1)- 首先明确损失函数对预激活值的链式求导关系:
- 损失函数 L=12(y−y^)2L=\frac{1}{2}(y - \hat{y})^2L=21(y−y^)2,y^\hat{y}y^ 是输出层激活值,输出层激活值 ai(k)=σ(zi(k))a_{i}^{(k)}=\sigma(z_{i}^{(k)})ai(k)=σ(zi(k))(kkk 为输出层)。
- 对于隐藏层第 lll 层神经元 jjj,根据链式法则,δj(l)=∂L∂zj(l)\delta_{j}^{(l)}=\frac{\partial L}{\partial z_{j}^{(l)}}δj(l)=∂zj(l)∂L。
- 而 zj(l)z_{j}^{(l)}zj(l) 通过影响下一层(l+1l + 1l+1 层)的预激活值 zi(l+1)=∑jwij(l)aj(l)+bi(l+1)z_{i}^{(l + 1)}=\sum_{j}w_{ij}^{(l)}a_{j}^{(l)}+b_{i}^{(l + 1)}zi(l+1)=∑jwij(l)aj(l)+bi(l+1)(bbb 为偏置,推导中可先忽略简化),进而影响损失 LLL。
- 即 ∂L∂zj(l)=∑i∂L∂zi(l+1)⋅∂zi(l+1)∂aj(l)⋅∂aj(l)∂zj(l)\frac{\partial L}{\partial z_{j}^{(l)}}=\sum_{i}\frac{\partial L}{\partial z_{i}^{(l + 1)}}\cdot\frac{\partial z_{i}^{(l + 1)}}{\partial a_{j}^{(l)}}\cdot\frac{\partial a_{j}^{(l)}}{\partial z_{j}^{(l)}}∂zj(l)∂L=∑i∂zi(l+1)∂L⋅∂aj(l)∂zi(l+1)⋅∂zj(l)∂aj(l)。
- 然后代入已知条件:
- 由定义,δi(l+1)=∂L∂zi(l+1)\delta_{i}^{(l + 1)}=\frac{\partial L}{\partial z_{i}^{(l + 1)}}δi(l+1)=∂zi(l+1)∂L;∂zi(l+1)∂aj(l)=wij(l)\frac{\partial z_{i}^{(l + 1)}}{\partial a_{j}^{(l)}} = w_{ij}^{(l)}∂aj(l)∂zi(l+1)=wij(l)(因为 zi(l+1)=∑jwij(l)aj(l)+⋯z_{i}^{(l + 1)}=\sum_{j}w_{ij}^{(l)}a_{j}^{(l)}+\cdotszi(l+1)=∑jwij(l)aj(l)+⋯,对 aj(l)a_{j}^{(l)}aj(l) 求偏导得 wij(l)w_{ij}^{(l)}wij(l) );又因为激活函数是 Sigmoid,∂aj(l)∂zj(l)=σ′(zj(l))\frac{\partial a_{j}^{(l)}}{\partial z_{j}^{(l)}}=\sigma^{\prime}(z_{j}^{(l)})∂zj(l)∂aj(l)=σ′(zj(l))(已知 σ′(z)=σ(z)(1−σ(z))\sigma^{\prime}(z)=\sigma(z)(1 - \sigma(z))σ′(z)=σ(z)(1−σ(z)) )。
- 所以 δj(l)=σ′(zj(l))∑iwij(l)δi(l+1)\delta_{j}^{(l)}=\sigma^{\prime}(z_{j}^{(l)})\sum_{i}w_{ij}^{(l)}\delta_{i}^{(l + 1)}δj(l)=σ′(zj(l))∑iwij(l)δi(l+1),得证。
- 首先明确损失函数对预激活值的链式求导关系:
四、应用题
- 给定圆的半径为 ϵ\epsilonϵ,令MinPts=3,考虑下面两幅图,以q,m,p,s,o,n,rq,m,p,s,o,n,rq,m,p,s,o,n,r为例。
(1)哪些对象是核心对象?
核心对象:邻域(半径ϵ\epsilonϵ圆内)包含点数≥MinPts(=3)\geq \text{MinPts}(=3)≥MinPts(=3)的点。
- 图a:qqq、mmm、ppp(各自ϵ\epsilonϵ圆内点数≥3\geq3≥3 )
- 图b:sss、ooo、nnn、rrr(各自ϵ\epsilonϵ圆内点数≥3\geq3≥3 )
(2)哪些对象是直接密度可达的?
直接密度可达:点AAA是核心对象,点BBB在AAA的ϵ\epsilonϵ邻域内,则BBB从AAA直接密度可达。
- 图a:qqq与mmm 、mmm与qqq 、mmm与ppp 、ppp与mmm (互为核心对象且在邻域内 )
- 图b:sss与ooo 、ooo与sss 、ooo与nnn 、nnn与ooo 、nnn与rrr 、rrr与nnn 、ooo与rrr 、rrr与ooo等(核心对象间邻域包含 )
(3)哪些对象是密度可达的?
密度可达:通过直接密度可达链连接的点(如A→B→CA \to B \to CA→B→C,AAA核心对象,BBB从AAA直接可达,CCC从BBB直接可达,则CCC从AAA密度可达 )。
- 图a:qqq、mmm、ppp 两两密度可达(形成直接可达链 )
- 图b:sss、ooo、nnn、rrr 相互密度可达(通过直接可达链连接 )
(4)哪些对象是密度相连的?
密度相连:两点可通过共同核心对象密度可达(如AAA、BBB都从核心对象CCC密度可达,则AAA与BBB密度相连 )。
- 图a:qqq、mmm、ppp 两两密度相连(共享核心对象链 )
- 图b:sss、ooo、nnn、rrr 两两密度相连(共享核心对象链 )
(5) 假设给定一个非空二维数据点集P,给定圆的半径为 ϵ\epsilonϵ,MinPts=3,使用python实现基于密度的聚类算法,需给出具体的算法步骤。
import numpy as np
from scipy.spatial.distance import pdist, squareform
def dbscan(P, epsilon, min_pts):
# 1. 计算距离矩阵,筛选核心对象
dist_matrix = squareform(pdist(P))
core_points = np.where(np.sum(dist_matrix <= epsilon, axis=1) >= min_pts)[0]
# 2. 聚类(队列实现密度可达扩展)
clusters = []
visited = set()
for core in core_points:
if core not in visited:
queue = [core]
visited.add(core)
cluster = []
while queue:
p = queue.pop(0)
cluster.append(p)
# 找p的邻域点
neighbors = np.where(dist_matrix[p] <= epsilon)[0]
for n in neighbors:
if n in core_points and n not in visited:
visited.add(n)
queue.append(n)
clusters.append(cluster)
# 3. 标记噪声点
noise = [i for i in range(len(P)) if i not in np.concatenate(clusters)]
return clusters, noise
# 示例调用(需替换P为实际数据)
P = np.random.rand(10, 2) # 随机二维点集示例
clusters, noise = dbscan(P, epsilon=0.3, min_pts=3)
print("聚类结果:", clusters)
print("噪声点:", noise)
- 数据集:给定二维数据集,需划分为 kkk 个簇。初始聚类中心为 C1C_1C1 和 C2C_2C2。目标:完成一次完整的K-means迭代(分配数据点 + 更新中心)。
(1)K-means算法的核心步骤是什么?需说明迭代终止条件。
- 核心步骤:
① 分配数据点:计算每个点到聚类中心的距离,将点分配到最近中心的簇。
② 更新中心:对每个簇,计算簇内所有点的均值,作为新的聚类中心。 - 终止条件:聚类中心不再变化(或变化小于设定阈值,如距离差<1e−5< 1e - 5<1e−5 )。
(2)计算点到聚类中心的欧氏距离。
设点P(x1,y1)P(x_1,y_1)P(x1,y1),聚类中心C(xc,yc)C(x_c,y_c)C(xc,yc),距离:
d(P,C)=(x1−xc)2+(y1−yc)2 d(P,C)=\sqrt{(x_1 - x_c)^2+(y_1 - y_c)^2} d(P,C)=(x1−xc)2+(y1−yc)2
(3)判断以下说法是否正确并说明理由:
“K-means对初始中心敏感,可能陷入局部最优;轮廓系数可评估聚类质量,其值越接近1表示聚类效果越好。”
正确
- K-means 随机选初始中心,不同初始值可能收敛到不同局部最优;
- 轮廓系数(Silhouette Score)衡量聚类内聚度与分离度,值越接近111,簇内相似度高、簇间差异大,聚类效果越好。
(4)假设分配后,簇1包含点集 S1S_1S1,簇2包含点集 S2S_2S2。求更新后的聚类中心 C1′C_1'C1′ 和 C2′C_2'C2′ 的坐标表达式。
设S1={(x11,y11),(x12,y12),…,(x1n,y1n)}S_1 = \{ (x_{11},y_{11}),(x_{12},y_{12}),\dots,(x_{1n},y_{1n}) \}S1={(x11,y11),(x12,y12),…,(x1n,y1n)},S2={(x21,y21),…,(x2m,y2m)}S_2 = \{ (x_{21},y_{21}),\dots,(x_{2m},y_{2m}) \}S2={(x21,y21),…,(x2m,y2m)},则:
C1′=(1n∑i=1nx1i,1n∑i=1ny1i) C_1'=\left( \frac{1}{n}\sum_{i = 1}^{n}x_{1i},\frac{1}{n}\sum_{i = 1}^{n}y_{1i} \right) C1′=(n1i=1∑nx1i,n1i=1∑ny1i)
C2′=(1m∑i=1mx2i,1m∑i=1my2i) C_2'=\left( \frac{1}{m}\sum_{i = 1}^{m}x_{2i},\frac{1}{m}\sum_{i = 1}^{m}y_{2i} \right) C2′=(m1i=1∑mx2i,m1i=1∑my2i)
(5)Python实现K-Means聚类代码。
import numpy as np
def kmeans(data, k, max_iter=100):
# 初始化聚类中心(示例:随机选前k个点,也可随机采样)
centers = data[:k].copy()
for _ in range(max_iter):
# 1. 分配数据点:计算距离,找最近中心
labels = np.argmin(np.linalg.norm(data[:, None] - centers, axis=2), axis=1)
# 2. 更新中心:按簇求均值
new_centers = np.array([data[labels == i].mean(axis=0) for i in range(k)])
# 终止条件:中心不再变化
if np.allclose(centers, new_centers):
break
centers = new_centers
return centers, labels
# 示例调用(需替换 data 为实际二维数据集)
data = np.random.rand(100, 2) # 随机二维数据示例
centers, labels = kmeans(data, k=2)
print("最终聚类中心:", centers)
print("点的簇标签:", labels)