写在前面(废话)
各位好,这里是米饭不是配菜。
现在是2025年12月2日22:49:11,23级考完试的当天晚上,为了贯彻落实 @洛樱 的分享精神,群友们群策群力凑齐了整张卷子的内容,给软院的后人作为参考。
总的来说,相比于去年的考试,这次考察的知识范围变得更广了(或者说更偏了),且根据反馈,计算不再是凑好的送分题,其中一些很难计算(笔者主观臆测,是出题老师改了个数但是没有自己算一遍结果)。
尽管如此,这门考试的备考方案保持不变——BFS(广度优先搜索):
- 背诵 PPT 上的概念与结论,不要求掌握数学推导过程(但最终的公式要记住);
- 无需深究各机器学习任务背后的原理,以及更深层的本质;
- 不需要练习高阶计算题(如 KKT 条件、SMO、软间隔最大化等,再说一遍,老师也不懂怎么算)。
情报补充:23级和22级的出题人都是wcg老师(笔者记得是22级是dw,可能是hallucination了)。
希望这份真题回忆能够帮到你们。
感谢所有参与回忆与整理的同学!包括但不限于:@佚名、@kisechan、@米饭是主人、@桂木桂马(自称)
特别鸣谢:@洛樱 去年的开创性贡献,没有他我就不会写22级真题的回忆;
和 @VirtualNPC 对今年卷子回忆的大力帮助,他贡献了本张卷子的绝大部分内容。
自从学校官方不再允许公开往年试题后,很多前辈在优快云上面分享了很多期末卷子的回忆版,希望各位能将这份开源精神贯彻下去。毕竟自古以来(指解忧),对考试资料的分享就是我们计软的一大优良美德(笑)。
考试题型
- 选择题:10题,每题2分,共20分
- 简答题:5题,每题4分,共20分
- 计算与证明题:3题,每题10分,共30分
- 论述题:2题,每题15分,共30分
2025.12.2 期末考试真题
选择题
- 下列哪一项不属于二分类任务?
- 逻辑回归模型的输出形式是什么?
- 0或1
- 概率
- 在二分类任务中,将决策阈值适当提高(例如从 0.5 提高到 0.7),一般会对精确率(Precision)与召回率(Recall)产生怎样的影响?
- bp的作用是什么(全卷就这一个神经网络题目)
- 已知有两个向量,其夹角为 60°,则下列关于它们余弦相似度的说法中,哪一项是错误的?
- 余弦相似度为xxx
- 余弦相似度是正数
- 无法计算出余弦相似度
- 余弦相似度只与夹角有关
- 层次聚类相关的题目。
- 关于 K-means 聚类算法,下列说法中正确的是:
- A:K-means 可以看作是对一般高斯混合模型执行的完整 EM 算法。
- B:在 K-means 的 EM 视角下,其 E 步是计算每个样本属于各个簇的后验概率(软划分)。
- C:K-means 每一次更新都会使目标函数值减小或保持不变。
- D:K-means 具有较强健壮性,可以很好地应对离群点。
- 关于 DBSCAN 算法的特点,下列说法中正确的是:________。
- EM算法中的E 步和 M 步分别完成什么工作?
- SOM(Self-Organizing Map,自组织映射)网络有哪些主要特点?
简答题
- 简要阐述**偏差(Bias)和方差(Variance)**的概念,并说明它们在模型选择中的作用。
- 写出**岭回归(Ridge Regression)**的目标函数公式,并分析 L2 正则项是否有利于得到稀疏解,说明理由。
- 在 K-means 聚类的基础上,写出另外两种通过“选择聚类中心”来进行聚类的算法,并说明它们相对于 K-means 的主要优势。
- 说明支持向量机(SVM)如何通过引入松弛变量来处理非严格可分的数据集,并写出相应的优化目标函数及约束条件。
- 对比最大似然估计 与 最大对数似然估计:
- 二者在形式上的区别是什么?
- 为什么在实际应用中更常使用最大对数似然而不是直接对原始似然函数进行优化?
三、计算题
- 已知一组二维样本数据,请使用主成分分析(PCA)将其从二维降到一维,给出具体计算步骤和结果。
- 已知一个基于核函数的 SVM 模型:
- 根据给定支持向量和核函数,求出偏置项 bbb。
- 写出该模型的决策函数,并对给定测试点代入决策函数,判断该点属于哪一类,并说明依据。
- 已知一组一维线性回归训练样本:
- 写出该问题的最小二乘法目标函数形式。
- 以第一个样本点为例,用梯度下降法迭代一次,求参数 www 和 bbb 的更新结果。
- 使用正规方程,直接求出包含偏置项在内的增广参数向量 w~\tilde{w}w~。
四、论述题
-
已知二分类模型采用逻辑回归,请完成以下各小题:
- 写出 sigmoid 函数的数学表达式。
- 写出样本属于正类(标签为 1)的概率公式。
- 写出该模型的对数似然函数。
- 利用梯度下降法,更新模型参数的公式。
-
送分论述题
基于你所知道的机器学习方法和应用,阐述如何安全的应用机器学习方法(模型偏差、公平、鲁棒性、隐私)。

被折叠的 条评论
为什么被折叠?



