【模式识别与机器学习】机器学习练习题集

📝 使用说明

  • 题目按知识点分类,每个知识点包含不同难度的题目
  • ⭐ 表示基础题,⭐⭐ 表示中等难度,⭐⭐⭐ 表示高难度
  • 答案在每部分末尾,建议先做题再看答案
  • 题目类型:单选题(A/B/C/D)、多选题(A/B/C/D/E)、判断题(√/×)

目录


一、模式识别基础

单选题

1. ⭐ 模式的定义是什么?

A. 事物的本质特征
B. 时空特征组合,用向量表示
C. 数据的统计特征
D. 算法的输出结果

2. ⭐ 模式具有哪三大特性?

A. 可观察性、可区分性、相似性
B. 准确性、可靠性、有效性
C. 完整性、一致性、正确性
D. 可扩展性、可维护性、可重用性

3. ⭐⭐ 模式识别过程的完整流程是?

A. 数据获取 → 预处理 → 分类决策
B. 数据获取 → 预处理 → 特征提取 → 分类决策
C. 数据获取 → 特征提取 → 分类决策
D. 预处理 → 特征提取 → 分类决策

4. ⭐⭐ 模式识别的主要方法不包括?

A. 数据聚类
B. 模版匹配
C. 神经网络
D. 线性规划

5. ⭐⭐⭐ 关于"没有免费的午餐"定理,下列说法正确的是?

A. 所有算法在所有问题上表现相同
B. 不存在在所有问题上都最优的算法
C. 简单算法总是比复杂算法好
D. 复杂算法总是比简单算法好

多选题

6. ⭐⭐ 模式的表示方法包括?

A. 向量表示
B. 矩阵表示
C. 图表示
D. 树表示
E. 字符串表示

7. ⭐⭐⭐ 模式识别面临的难点包括?

A. 非结构化数据多
B. 机器缺乏抽象能力
C. 数据质量问题
D. 计算资源有限
E. 算法复杂度高

判断题

8. ⭐ 模式就是事物本身。( )

9. ⭐⭐ 模式识别只需要分类,不需要模式发现和评估。( )

10. ⭐⭐⭐ 奥卡姆剃刀原理说明简单模型总是比复杂模型好。( )


二、机器学习基础

单选题

11. ⭐ 机器学习的本质是?

A. 编写程序解决问题
B. 通过数据学习提升能力
C. 存储大量数据
D. 执行复杂计算

12. ⭐ 监督学习、无监督学习、强化学习的主要区别是?

A. 数据量大小
B. 是否有标签数据
C. 算法复杂度
D. 计算速度

13. ⭐⭐ 经验风险最小化(ERM)的核心思想是?

A. 最小化训练误差
B. 最小化测试误差
C. 最小化期望风险
D. 用样本误差近似期望风险

14. ⭐⭐ 机器学习模型追求的核心能力是?

A. 训练准确率
B. 泛化能力
C. 计算速度
D. 模型复杂度

15. ⭐⭐⭐ 关于"一致性假设",下列说法正确的是?

A. 训练数据和测试数据分布相同
B. 样本独立同分布
C. 模型参数不变
D. 特征空间不变

多选题

16. ⭐⭐ 机器学习的主要方法包括?

A. 监督学习
B. 无监督学习
C. 强化学习
D. 半监督学习
E. 迁移学习

17. ⭐⭐⭐ 机器学习面临的挑战包括?

A. 泛化能力
B. 速度
C. 可理解性
D. 数据利用
E. 代价敏感

判断题

18. ⭐ 机器学习就是人工智能。( )

19. ⭐⭐ 经验风险最小化一定能保证泛化能力。( )

20. ⭐⭐⭐ 黑箱模型比白箱模型总是更好。( )


三、决策树

单选题

21. ⭐ 决策树的基本思想是?

A. 线性划分
B. 递归划分输入空间
C. 概率建模
D. 距离计算

22. ⭐ ID3算法使用什么来选择分裂属性?

A. 信息增益
B. 增益率
C. 基尼系数
D. 方差

23. ⭐⭐ 信息增益的计算公式是?

A. G a i n ( A ) = E n t r o p y ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)v=1VDDvEntropy(Dv)
B. G a i n ( A ) = E n t r o p y ( D ) + ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) + \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)+v=1VDDvEntropy(Dv)
C. G a i n ( A ) = E n t r o p y ( D ) × ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) \times \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)×v=1VDDvEntropy(Dv)
D. G a i n ( A ) = E n t r o p y ( D ) / ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) / \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)/v=1VDDvEntropy(Dv)

24. ⭐⭐ C4.5算法使用增益率是为了解决什么问题?

A. 计算复杂度
B. 信息增益偏向多值属性
C. 过拟合问题
D. 缺失值处理

25. ⭐⭐⭐ 关于决策树剪枝,下列说法正确的是?

A. 预剪枝总是比后剪枝好
B. 后剪枝总是比预剪枝好
C. 预剪枝可能欠拟合,后剪枝效果更好但计算量大
D. 剪枝不影响模型性能

多选题

26. ⭐⭐ 决策树的优点包括?

A. 直观易懂
B. 不需要领域知识
C. 处理高维数据快
D. 可解释性强
E. 不容易过拟合

27. ⭐⭐⭐ 决策树处理过拟合的方法包括?

A. 预剪枝
B. 后剪枝
C. 限制树的深度
D. 限制叶节点最小样本数
E. 增加训练数据

判断题

28. ⭐ 决策树是急切学习算法。( )

29. ⭐⭐ 信息增益越大,分类准确性提升越大。( )

30. ⭐⭐⭐ CART算法只能处理分类问题。( )


四、kNN

单选题

31. ⭐ kNN是什么类型的算法?

A. 急切学习
B. 惰性学习
C. 在线学习
D. 批量学习

32. ⭐ kNN的核心思想是?

A. 线性划分
B. 概率建模
C. 近朱者赤近墨者黑
D. 递归划分

33. ⭐⭐ 欧几里德距离的公式是?

A. d ( x i , x j ) = ∑ f = 1 p ∣ x i f − x j f ∣ d(x_i, x_j) = \sum_{f=1}^{p}|x_{if} - x_{jf}| d(xi,xj)=f=1pxifxjf
B. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sqrt{\sum_{f=1}^{p}(x_{if} - x_{jf})^2} d(xi,xj)=f=1p(xifxjf)2
C. d ( x i , x j ) = max ⁡ f ∣ x i f − x j f ∣ d(x_i, x_j) = \max_f|x_{if} - x_{jf}| d(xi,xj)=maxfxifxjf
D. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sum_{f=1}^{p}(x_{if} - x_{jf})^2 d(xi,xj)=f=1p(xifxjf)2

34. ⭐⭐ 关于k值选择,下列说法正确的是?

A. k越大越好
B. k越小越好
C. k太小易过拟合,k太大模型过于简单
D. k值不影响结果

35. ⭐⭐⭐ kD树的主要作用是?

A. 存储数据
B. 提高最近邻搜索效率
C. 减少存储空间
D. 提高分类准确率

多选题

36. ⭐⭐ kNN的距离度量方法包括?

A. 欧几里德距离
B. 曼哈顿距离
C. 切比雪夫距离
D. 闵可夫斯基距离
E. 余弦距离

37. ⭐⭐⭐ kNN的缺点包括?

A. 对噪声敏感
B. 计算慢
C. 需要存储所有训练样本
D. 对不平衡数据敏感
E. 高维数据效果差

判断题

38. ⭐ kNN在训练阶段需要构建模型。( )

39. ⭐⭐ kNN计算距离前不需要数据标准化。( )

40. ⭐⭐⭐ kNN可以处理任意形状的决策边界。( )


五、贝叶斯

单选题

41. ⭐ 贝叶斯公式是?

A. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P ( X ) P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)} P(CX)=P(X)P(XC)P(C)
B. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P(C|X) = P(X|C) \cdot P(C) P(CX)=P(XC)P(C)
C. P ( C ∣ X ) = P ( X ∣ C ) P ( X ) P(C|X) = \frac{P(X|C)}{P(X)} P(CX)=P(X)P(XC)
D. P ( C ∣ X ) = P ( C ) ⋅ P ( X ) P(C|X) = P(C) \cdot P(X) P(CX)=P(C)P(X)

42. ⭐ 朴素贝叶斯的"朴素"假设是?

A. 所有特征独立
B. 所有特征条件独立
C. 所有特征相关
D. 所有特征相同

43. ⭐⭐ 先验概率、似然概率、后验概率的区别是?

A. 先验概率是观测数据前的判断,似然概率是给定类别下观测到数据的概率,后验概率是观测数据后的判断
B. 三者没有区别
C. 先验概率最大,后验概率最小
D. 似然概率最大,先验概率最小

44. ⭐⭐ 最小错误率决策和最小风险决策的区别是?

A. 最小错误率不考虑错误代价,最小风险考虑错误代价
B. 最小错误率考虑错误代价,最小风险不考虑错误代价
C. 两者没有区别
D. 最小错误率用于分类,最小风险用于回归

45. ⭐⭐⭐ 关于EM算法,下列说法正确的是?

A. EM算法只适用于有完整数据的情况
B. EM算法通过E步骤和M步骤迭代优化,适用于有隐藏变量的情况
C. EM算法不需要迭代
D. EM算法只适用于分类问题

多选题

46. ⭐⭐ 参数估计方法包括?

A. 最大似然估计(MLE)
B. 最大后验估计(MAP)
C. 贝叶斯参数估计
D. 最小二乘估计
E. 矩估计

47. ⭐⭐⭐ 朴素贝叶斯的优点包括?

A. 简单易懂
B. 训练速度快
C. 对小规模数据表现良好
D. 对噪声数据不敏感
E. 可以处理多分类问题

判断题

48. ⭐ 贝叶斯方法只能给出确定标签,不能给出概率值。( )

49. ⭐⭐ 朴素贝叶斯的条件独立性假设在现实中总是成立的。( )

50. ⭐⭐⭐ 如果某个属性值在训练数据中从未出现,朴素贝叶斯会使用平滑技术避免概率为0。( )


六、逻辑回归

单选题

51. ⭐ Sigmoid函数的作用是?

A. 将任意实数映射到[0,1]区间
B. 将任意实数映射到[-1,1]区间
C. 将任意实数映射到[0,∞)区间
D. 将任意实数映射到实数域

52. ⭐ 逻辑回归的损失函数是?

A. 均方误差
B. 交叉熵损失
C. 绝对值误差
D. 对数损失

53. ⭐⭐ 逻辑回归的决策边界是?

A. 非线性的
B. 线性的( θ T x = 0 \theta^T x = 0 θTx=0
C. 圆形的
D. 任意形状的

54. ⭐⭐ 梯度下降法中,学习率的作用是?

A. 控制参数更新的步长
B. 控制迭代次数
C. 控制模型复杂度
D. 控制数据量

55. ⭐⭐⭐ 关于梯度下降法的变体,下列说法正确的是?

A. 批量梯度下降最快但最不稳定
B. 随机梯度下降最稳定但最慢
C. 小批量梯度下降平衡速度和稳定性,最常用
D. 三种方法没有区别

多选题

56. ⭐⭐ 逻辑回归的优化方法包括?

A. 批量梯度下降(BGD)
B. 随机梯度下降(SGD)
C. 小批量梯度下降(MBGD)
D. 动量法
E. Adam算法

57. ⭐⭐⭐ 逻辑回归的缺点包括?

A. 只能处理线性决策边界
B. 对异常值敏感
C. 特征缺失时表现不好
D. 计算复杂度高
E. 需要大量数据

判断题

58. ⭐ 逻辑回归是回归算法,不是分类算法。( )

59. ⭐⭐ 逻辑回归对对数几率是线性的。( )

60. ⭐⭐⭐ 逻辑回归可以处理多分类问题,但需要特殊处理(One-vs-Rest或Softmax)。( )


七、线性回归

单选题

61. ⭐ 线性回归的基本模型是?

A. y = β 0 + β 1 x 1 + . . . + β D x D = x T β y = \beta_0 + \beta_1 x_1 + ... + \beta_D x_D = x^T \beta y=β0+β1x1+...+βDxD=xTβ
B. y = β 0 × β 1 x 1 × . . . × β D x D y = \beta_0 \times \beta_1 x_1 \times ... \times \beta_D x_D y=β0×β1x1×...×βDxD
C. y = β 0 + β 1 x 1 2 + . . . + β D x D 2 y = \beta_0 + \beta_1 x_1^2 + ... + \beta_D x_D^2 y=β0+β1x12+...+βDxD2
D. y = sin ⁡ ( β T x ) y = \sin(\beta^T x) y=sin(βTx)

62. ⭐ 最小二乘法的解析解是?

A. β ^ = ( Φ T Φ ) − 1 Φ T y \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y β^=(ΦTΦ)1ΦTy
B. β ^ = Φ T y \hat{\beta} = \Phi^T y β^=ΦTy
C. β ^ = Φ y \hat{\beta} = \Phi y β^=Φy
D. β ^ = ( Φ T Φ ) Φ T y \hat{\beta} = (\Phi^T \Phi) \Phi^T y β^=(ΦTΦ)ΦTy

63. ⭐⭐ L1正则化(Lasso)和L2正则化(Ridge)的区别是?

A. L1让参数变小但不为0,L2可以让参数为0
B. L1可以让参数为0(特征选择),L2让参数变小但不为0
C. 两者没有区别
D. L1用于分类,L2用于回归

64. ⭐⭐ 关于过拟合,下列说法正确的是?

A. 模型在训练数据上表现好,在新数据上也表现好
B. 模型在训练数据上表现好,但在新数据上表现差
C. 模型在训练数据上表现差,在新数据上也表现差
D. 过拟合总是好的

65. ⭐⭐⭐ 当特征数量大于样本数时,最小二乘法会出现什么问题?

A. 计算速度慢
B. 矩阵 Φ T Φ \Phi^T\Phi ΦTΦ不可逆
C. 结果不准确
D. 没有影响

多选题

66. ⭐⭐ 线性回归的基函数的作用是?

A. 对输入特征进行非线性变换
B. 让线性回归处理非线性关系
C. 虽然对原始特征非线性,但对变换后的特征仍线性(对参数 β \beta β线性)
D. 减少特征数量
E. 提高计算速度

67. ⭐⭐⭐ 线性回归的缺点包括?

A. 假设线性关系
B. 对异常值敏感
C. 多重共线性问题
D. 需要大量数据
E. 计算复杂度高

判断题

68. ⭐ 线性回归只能处理线性关系。( )

69. ⭐⭐ 使用基函数可以让线性回归处理非线性关系。( )

70. ⭐⭐⭐ L1正则化可以实现自动特征选择。( )


八、进化计算

单选题

71. ⭐ 遗传算法的基本思想来源于?

A. 数学优化
B. 生物进化过程
C. 物理过程
D. 化学过程

72. ⭐ 遗传算法的五个要素不包括?

A. 编码方案
B. 初始种群
C. 适应度函数
D. 学习率

73. ⭐⭐ 遗传操作包括?

A. 选择、交叉、变异
B. 选择、交叉、学习
C. 交叉、变异、学习
D. 选择、变异、学习

74. ⭐⭐ 交叉操作的作用是?

A. 增加种群多样性
B. 组合父代基因产生子代
C. 随机改变基因
D. 选择优秀个体

75. ⭐⭐⭐ 遗传算法与进化策略的主要区别是?

A. 编码方式(位串编码vs实数串编码)
B. 优化能力
C. 适用问题(离散优化vs连续优化)
D. 以上都是

多选题

76. ⭐⭐ 遗传算法的应用场景包括?

A. 函数优化
B. 组合优化
C. 机器学习参数调优
D. 路径规划
E. 图像处理

77. ⭐⭐⭐ 遗传算法的缺点包括?

A. 收敛速度慢
B. 容易陷入局部最优
C. 参数设置复杂
D. 计算复杂度高
E. 结果不稳定

判断题

78. ⭐ 遗传算法保证找到全局最优解。( )

79. ⭐⭐ 变异操作可以增加种群多样性,防止过早收敛。( )

80. ⭐⭐⭐ 遗传算法适合处理高维连续优化问题。( )


九、元学习

单选题

81. ⭐ 元学习的核心思想是?

A. 使用单个学习器
B. 组合多个学习器提高性能
C. 使用深度学习
D. 使用强化学习

82. ⭐ Bagging和Boosting的主要区别是?

A. Bagging并行训练,Boosting顺序训练
B. Bagging顺序训练,Boosting并行训练
C. 两者没有区别
D. Bagging用于分类,Boosting用于回归

83. ⭐⭐ 随机森林是?

A. Bagging + 决策树 + 特征随机选择
B. Boosting + 决策树
C. 单个决策树
D. 神经网络

84. ⭐⭐ Stacking的核心思想是?

A. 简单投票
B. 使用元学习器学习如何组合基学习器
C. 平均预测结果
D. 选择最好的基学习器

85. ⭐⭐⭐ 关于基学习器差异性,下列说法正确的是?

A. 基学习器越相似越好
B. 基学习器差异性越大,最终组合学习器的学习效果越好
C. 差异性不影响结果
D. 只需要一个基学习器

多选题

86. ⭐⭐ 元学习方法包括?

A. Bagging
B. Boosting
C. 随机森林
D. Stacking
E. 投票法

87. ⭐⭐⭐ Bagging的优点包括?

A. 减少方差
B. 降低过拟合
C. 可以并行训练
D. 重点关注困难样本
E. 降低偏差

判断题

88. ⭐ 元学习就是使用多个相同的学习器。( )

89. ⭐⭐ Boosting可以并行训练多个基学习器。( )

90. ⭐⭐⭐ 随机森林不需要对决策树进行剪枝。( )


十、PCA

单选题

91. ⭐ PCA的主要作用是?

A. 分类
B. 聚类
C. 降维
D. 回归

92. ⭐ PCA的核心思想是?

A. 最小化方差
B. 最大化方差(寻找方差最大的投影方向)
C. 最小化距离
D. 最大化距离

93. ⭐⭐ PCA降维后,主成分之间是?

A. 相关的
B. 正交的(不相关)
C. 相同的
D. 随机的

94. ⭐⭐ PCA的适用场景是?

A. 数据维度高且存在相关性
B. 数据维度低
C. 数据没有相关性
D. 分类问题

95. ⭐⭐⭐ 关于PCA的局限性,下列说法正确的是?

A. PCA可以处理非线性关系
B. PCA假设数据是线性相关的
C. PCA不需要数据预处理
D. PCA可以处理缺失值

多选题

96. ⭐⭐ PCA的步骤包括?

A. 零均值化
B. 计算协方差矩阵
C. 特征值分解
D. 选择主成分
E. 投影到低维空间

97. ⭐⭐⭐ PCA的应用包括?

A. 数据可视化
B. 特征提取
C. 噪声去除
D. 数据压缩
E. 分类

判断题

98. ⭐ PCA可以保留数据的所有信息。( )

99. ⭐⭐ PCA降维后,主成分的方差是递减的。( )

100. ⭐⭐⭐ PCA可以用于分类问题的特征提取。( )


十一、AdaBoost

单选题

101. ⭐ AdaBoost的核心思想是?

A. 使用单个强分类器
B. 组合多个弱分类器形成强分类器
C. 使用深度学习
D. 使用强化学习

102. ⭐ AdaBoost中,分类器权重的计算公式是?

A. α = 1 2 ln ⁡ ( 1 − ε ε ) \alpha = \frac{1}{2}\ln(\frac{1-\varepsilon}{\varepsilon}) α=21ln(ε1ε)
B. α = ε \alpha = \varepsilon α=ε
C. α = 1 − ε \alpha = 1 - \varepsilon α=1ε
D. α = ε 1 − ε \alpha = \frac{\varepsilon}{1-\varepsilon} α=1εε

103. ⭐⭐ 关于AdaBoost的权重调整,下列说法正确的是?

A. 错误分类的样本权重降低
B. 错误分类的样本权重提高(多关注)
C. 所有样本权重相同
D. 权重不影响结果

104. ⭐⭐ AdaBoost使用的弱分类器通常是?

A. 深度神经网络
B. 单层决策树(决策桩)
C. 随机森林
D. 支持向量机

105. ⭐⭐⭐ AdaBoost的缺点包括?

A. 对噪声敏感
B. 计算复杂度高
C. 无法并行化
D. 以上都是

多选题

106. ⭐⭐ AdaBoost的算法流程包括?

A. 初始化样本权重
B. 迭代训练弱分类器
C. 计算分类器权重
D. 更新样本权重
E. 组合所有分类器

107. ⭐⭐⭐ AdaBoost的适用场景包括?

A. 二分类问题
B. 数据质量较好
C. 计算资源充足
D. 需要可解释性
E. 噪声很大的数据

判断题

108. ⭐ AdaBoost可以并行训练多个弱分类器。( )

109. ⭐⭐ AdaBoost中,错误率越小的分类器权重越大。( )

110. ⭐⭐⭐ AdaBoost对噪声数据不敏感。( )


十二、数据类型分类-统计描述

单选题

111. ⭐ 三种数据类型是?

A. 结构化、半结构化、非结构化
B. 数值型、字符型、布尔型
C. 连续型、离散型、混合型
D. 训练数据、测试数据、验证数据

112. ⭐ 结构化数据的特点是?

A. 强约束,数据严格组织在二维表中
B. 弱约束,有一定结构但语义不确定
C. 无约束,数据杂乱无章
D. 没有固定格式

113. ⭐⭐ 中心趋势度量不包括?

A. 均值
B. 中位数
C. 众数
D. 方差

114. ⭐⭐ 数据散布度量包括?

A. 极差、分位数、方差、标准差
B. 均值、中位数、众数
C. 最大值、最小值
D. 总和、平均值

115. ⭐⭐⭐ 关于三种数据类型的区别,下列说法正确的是?

A. 核心区别是数据量大小
B. 核心区别是模式(schema)对数据的约束程度不同
C. 核心区别是存储方式
D. 没有区别

多选题

116. ⭐⭐ 中心趋势度量包括?

A. 均值
B. 中位数
C. 众数
D. 中位数(最大值和最小值的平均)
E. 方差

117. ⭐⭐⭐ 数据散布度量包括?

A. 极差
B. 分位数(四分位数、IQR)
C. 五数概括
D. 方差和标准差
E. 均值

判断题

118. ⭐ 半结构化数据用XML/JSON存储。( )

119. ⭐⭐ 均值对极端值敏感,中位数对倾斜数据更好。( )

120. ⭐⭐⭐ 非结构化数据易于提取和处理。( )


十三、缺失值处理-属性选择转换

单选题

121. ⭐ 缺失值处理方法不包括?

A. 忽略元组
B. 人工填写
C. 全局常量
D. 删除所有数据

122. ⭐ 有类别信息时,优先使用的缺失值处理方法是?

A. 全局常量
B. 均值/中位数
C. 同类样本统计量
D. 忽略元组

123. ⭐⭐ 属性选择方法不包括?

A. Filter方法
B. Wrapper方法
C. Embedded方法
D. Random方法

124. ⭐⭐ 属性转换包括?

A. 降维、规范化、特殊转换
B. 删除、添加、修改
C. 分类、聚类、回归
D. 训练、测试、验证

125. ⭐⭐⭐ 关于属性选择方法的选择,下列说法正确的是?

A. 大规模数据→Filter方法
B. 数据量适中且准确性要求高→Wrapper方法
C. 使用特定算法→Embedded方法
D. 以上都是

多选题

126. ⭐⭐ 缺失值处理方法包括?

A. 忽略元组(<5%且随机)
B. 人工填写(数据量小)
C. 全局常量(快速处理)
D. 均值/中位数(分布均匀)
E. 同类样本统计量(有类别信息)

127. ⭐⭐⭐ 属性选择的Filter方法特点包括?

A. 快速筛选
B. 独立于算法
C. 优化组合
D. 用算法评价
E. 算法内置

判断题

128. ⭐ 缺失值处理中,最可能值方法(预测模型)最准确。( )

129. ⭐⭐ Wrapper方法比Filter方法计算更快。( )

130. ⭐⭐⭐ 规范化可以消除不同属性量纲的影响。( )


十四、离散化-数据清理

单选题

131. ⭐ 数值属性离散化的作用是?

A. 将连续值转换为离散类别
B. 将离散值转换为连续值
C. 删除数据
D. 增加数据

132. ⭐ 无监督离散方法不包括?

A. 等值区间
B. 等频区间
C. 聚类
D. 基于熵的离散

133. ⭐⭐ 有监督离散方法包括?

A. 基于熵的离散
B. 基于误差的离散
C. 等值区间
D. A和B

134. ⭐⭐ 自动数据清理方法不包括?

A. 改进决策树
B. 稳健回归
C. 离群点检测
D. 删除所有数据

135. ⭐⭐⭐ 关于离散化策略,下列说法正确的是?

A. 局部离散优于全局离散
B. 全局离散优于局部离散
C. 有类别信息→无监督离散
D. 无类别信息→有监督离散

多选题

136. ⭐⭐ 无监督离散方法包括?

A. 等值区间
B. 等频区间
C. 聚类
D. 概念分层
E. 基于熵的离散

137. ⭐⭐⭐ 自动数据清理方法包括?

A. 改进决策树
B. 稳健回归(LMedS方法)
C. 离群点检测
D. 删除异常值
E. 数据增强

判断题

138. ⭐ 离散化可以提高算法的速度和可解释性。( )

139. ⭐⭐ 有类别信息时,有监督离散优于无监督离散。( )

140. ⭐⭐⭐ 稳健回归可以抵抗离群点的干扰。( )


十五、聚类基本概念-K-means

单选题

141. ⭐ 聚类分析是什么?

A. 监督学习方法
B. 无监督学习方法
C. 强化学习方法
D. 半监督学习方法

142. ⭐ 聚类的核心原则是?

A. 最大化簇内相似性,最小化簇间相似性
B. 最小化簇内相似性,最大化簇间相似性
C. 最大化簇内和簇间相似性
D. 最小化簇内和簇间相似性

143. ⭐⭐ K-means算法的第一步是?

A. 将对象分配到最近中心
B. 重新计算中心
C. 随机选择k个初始中心
D. 计算距离

144. ⭐⭐ K值选择方法不包括?

A. 肘部法则
B. 轮廓系数
C. 业务需求
D. 随机选择

145. ⭐⭐⭐ K-means算法的复杂度是?

A. O ( n ) O(n) O(n)
B. O ( n k ) O(nk) O(nk)
C. O ( n k t ) O(nkt) O(nkt)(n是对象数,k是簇数,t是迭代次数)
D. O ( n 2 ) O(n^2) O(n2)

多选题

146. ⭐⭐ K-means的优点包括?

A. 算法简单
B. 计算效率高
C. 结果直观
D. 不需要预先指定K值
E. 可以发现任意形状簇

147. ⭐⭐⭐ K-means的缺点包括?

A. 需要预先指定簇数k
B. 只能发现球状簇
C. 对离群点敏感
D. 初始中心选择影响结果
E. 容易陷入局部最优

判断题

148. ⭐ 聚类需要类标号数据。( )

149. ⭐⭐ K-means计算距离前不需要数据标准化。( )

150. ⭐⭐⭐ K-means只能发现球状簇,不能发现任意形状的簇。( )


十六、层次聚类-DBSCAN-离群点检测

单选题

151. ⭐ 层次聚类的主要特点是?

A. 需要预先指定簇数
B. 不需要预先指定簇数
C. 只能发现球状簇
D. 计算复杂度低

152. ⭐ DBSCAN的主要特点是?

A. 基于距离
B. 基于密度,可以发现任意形状的簇
C. 需要预先指定簇数
D. 只能发现球状簇

153. ⭐⭐ DBSCAN需要设置的参数是?

A. k值
B. ϵ \epsilon ϵ和MinPts
C. 学习率
D. 迭代次数

154. ⭐⭐ 离群点检测方法不包括?

A. 统计方法
B. 距离方法
C. 密度方法
D. 聚类方法

155. ⭐⭐⭐ 关于DBSCAN,下列说法正确的是?

A. DBSCAN对噪声不敏感
B. DBSCAN对噪声鲁棒,可以自动识别噪声点
C. DBSCAN需要预先指定簇数
D. DBSCAN只能发现球状簇

多选题

156. ⭐⭐ 层次聚类方法包括?

A. 凝聚层次聚类(自底向上合并)
B. 分裂层次聚类(自顶向下分裂)
C. K-means
D. DBSCAN
E. 基于网格的方法

157. ⭐⭐⭐ 离群点检测方法包括?

A. 统计方法(有分布假设)
B. 距离方法(简单但计算复杂度高)
C. 密度方法(可以发现局部离群点)
D. 偏差方法(需要定义行为模式)
E. 聚类方法

判断题

158. ⭐ 层次聚类适合大规模数据。( )

159. ⭐⭐ DBSCAN可以发现任意形状的簇。( )

160. ⭐⭐⭐ 离群点就是噪声,应该删除。( )


十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析

单选题

161. ⭐ 支持度的定义是?

A. Support ( X ) = ∣ { d ∈ D ∣ X ⊆ d } ∣ ∣ D ∣ \text{Support}(X) = \frac{|\{d \in D | X \subseteq d\}|}{|D|} Support(X)=D{dDXd}
B. Support ( X ) = ∣ X ∣ \text{Support}(X) = |X| Support(X)=X
C. Support ( X ) = ∣ X ∣ ∣ D ∣ \text{Support}(X) = \frac{|X|}{|D|} Support(X)=DX
D. Support ( X ) = ∣ D ∣ \text{Support}(X) = |D| Support(X)=D

162. ⭐ 置信度的定义是?

A. Confidence ( X → Y ) = Support ( X ∪ Y ) Support ( X ) \text{Confidence}(X \rightarrow Y) = \frac{\text{Support}(X \cup Y)}{\text{Support}(X)} Confidence(XY)=Support(X)Support(XY)
B. Confidence ( X → Y ) = Support ( X ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) Confidence(XY)=Support(X)
C. Confidence ( X → Y ) = Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(Y) Confidence(XY)=Support(Y)
D. Confidence ( X → Y ) = Support ( X ) + Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) + \text{Support}(Y) Confidence(XY)=Support(X)+Support(Y)

163. ⭐⭐ Apriori算法的核心原理是?

A. 先验原理(频繁项集的子集一定是频繁的)
B. 后验原理
C. 最大似然原理
D. 最小二乘原理

164. ⭐⭐ Apriori算法和FP-Growth算法的主要区别是?

A. Apriori需要多次扫描数据库,FP-Growth只需要扫描一次
B. FP-Growth需要多次扫描数据库,Apriori只需要扫描一次
C. 两者没有区别
D. Apriori用于分类,FP-Growth用于聚类

165. ⭐⭐⭐ 关于先验原理,下列说法正确的是?

A. 频繁项集的子集一定是频繁的(用于剪枝)
B. 非频繁项集的超集一定是非频繁的(用于减少候选)
C. 以上都是
D. 以上都不是

多选题

166. ⭐⭐ Apriori算法的步骤包括?

A. 扫描数据库,生成频繁1项集
B. 逐层生成频繁k项集
C. 候选项集生成和剪枝
D. 生成强关联规则
E. 只扫描一次数据库

167. ⭐⭐⭐ 关联规则挖掘的应用包括?

A. 购物篮分析
B. 商品推荐
C. 搭配销售
D. 市场分析
E. 分类问题

判断题

168. ⭐ 支持度衡量规则是否常见,置信度衡量规则是否可信。( )

169. ⭐⭐ Apriori算法适合频繁项集长度较长的场景。( )

170. ⭐⭐⭐ 高置信度不一定意味着因果关系,需要结合业务知识判断。( )


题目统计

  • 单选题:85题(每题1分)
  • 多选题:34题(每题2分)
  • 判断题:51题(每题1分)
  • 总计:170题,204分

难度分布

  • ⭐ 基础题:约60题
  • ⭐⭐ 中等题:约70题
  • ⭐⭐⭐ 高难度题:约40题

使用建议

  1. 先独立完成题目,不要直接看答案
  2. 完成后再对照答案和解析
  3. 对于错题,重点复习相关知识点
  4. 定期回顾,巩固记忆
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值