机器学习笔试题目

本文涵盖了机器学习和数据挖掘的笔试题目,包括生成式模型与判别式模型的对比,EM算法的概念和应用场景,数据存储与数据流的定义,计算机图形学中的三维形体表示,C语言基础知识,排序算法的时间复杂度,数据清理中处理缺失值的方法,以及各种机器学习算法如SVM、K-means、KNN、决策树、神经网络、LR的原理、应用和比较。还涉及到了排序算法、数据结构、编程语言和数据挖掘的相关知识点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、常见的生成式模型和判别式模型有哪些?
生成式模型:HMM、朴素贝叶斯
判别式模型:SVM、最大熵模型、神经网络、决策树、条件随机场

2、EM算法的基本概念和应用场景?
EM算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。假设我们估计知道A和B两个参数,在开始状态下两者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。
应用场景:聚类

3、数据存储和数据流都属于数据,仅仅是所处的状态不同

4、计算机图形学中三维形体表示模型有哪些?
线框、表面、实体

5、C语言的基本单位是什么?
函数

6、n个记录使用快速排序,需要的辅助空间是?
O(log2n)。快速排序对待排序序列的划分大约为log2n次,而快速排序是通过递归算法来完成的,递归深度大约为log2n,因此所需的辅助存储空间为O(log2n)。

7、(7,34,55,64,46,20,10)线性表的散列存储,H(k)=k%9,地址为1的共有多少个元素?
4个。H(K)= K%9,表示除以9的余数.由于地址重叠造成冲突,所以散列存储时,通常还要有解决冲突的办法,如线性探查法等等.本题的答案分别是:55,64,46,10.

8、二叉树的中序遍历是BCFDEA后续遍历是BFCEAD,前序遍历是?
DCBFAE

9、栈和队列的共同点是什么?
只允许在端点处插入和删除元素

10、常见的分类算法有哪些?
SVM、神经网络、逻辑回归、KNN、随机森林、贝叶斯

11、计算机图形学中多边形的表示方法有哪些?
顶点表示和点阵表示

12、常见的监督学习算法有哪些?
感知机、SVM、ANN、决策树、逻辑回归

13、简述SVM过程, 举几个常见的核函数,说说其用途,举例说明什么是支持向量
线性核、多项式核、高斯核、拉普拉斯核、sigmoid核

14、说说K-means的过程,k的选择方法
1 初始化聚类中心
2 计算其他所有点到聚类中心的距离,将点归类到最近的中心
3 更新聚类中心
4 重复2-3步,直到聚类中心收敛

k的选择方法:
1 思想:初始的聚类中心之间相互距离尽可能远
kmeans++
2 用层次聚类(从底向上,最近的簇合并)进行初始聚类

15、举个你熟悉的分类算法,简述其原理

16、信息增益、信息增益比、基尼系数分别是什么?信息增益和信息增益比的区别?
信息增益 = 熵 - 条件熵(偏向选择特征值比较多的属性)
信息增益比 = 信息增益/所选特征的熵
基尼系数 = 1 - 全体数据集中每种类别概率的平方之和(构造二叉决策树)
这三个也是特征选择方法(ID3、C4.5、CART)

17、常见的排序算法中,时间复杂度是nlogn的有哪些?
快速排序、归并排序、堆排序

18、快速排序过程原理,稳定性及其原因。
采取分而治之的思想,把大的拆分为小的,每一趟排序,把比选定值小的数字放在它的左边,比它大的值放在右边;重复以上步骤,直到每个区间只有一个数。此时数组已经排序完成。

1.i =L; j = R; 将基准数挖出形成第一个坑a[i]。
2.j–由后向前找比它小的数,找到后挖出此数填前一个坑a[i]中。
3.i++由前向后找比它大的数,找到后也挖出此数填到前一个坑a[j]中。
4.再重复执行2,3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值