
百面机器学习面试题
文章平均质量分 83
本专栏记录了本人在学习《百面机器学习》过程中的笔记,同时摘选了高频的面试题分享在专栏中。
北下关吴中生
北下关在读研究生、优快云人工智能领域优质创作者、阿里云专家博主、2022年博客之星。研究兴趣包括:机器学习模型的可靠性与鲁棒性、大数据场景下的数据安全与隐私保护、强化学习与智能体机器人的决策控制等。
展开
-
【机器学习算法面试题】七.如何进行线上A/B测试,如何划分实验组和对照组?
即:user_id随机生成,user_id个位数为奇数且为美国用户的作为实验组,user_id个位数为偶数且为美国用户的作为对照组,对实验组施以推荐模型A,对对照组施以推荐模型B。(3)user_id随机生成,user_id个位数为奇数且为美国用户的作为实验组,user_id个位数为偶数的全体用户作为对照组,对实验组施以推荐模型A,对对照组施以推荐模型B。(1)user_id随机生成,user_id个位数为奇数的划分为实验组,个位数为偶数的划分为对照组,对实验组施以推荐模型A,对对照组施以推荐模型B。原创 2022-02-06 13:22:00 · 2030 阅读 · 0 评论 -
【机器学习算法面试题】六.训练集、验证集、测试集的理解。
验证集(validation dataset):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。在深度学习中,数据量较大,可以拿出很小的比例来当验证集和测试集(比例小但数据量可能仍然很大)。如:假设有100W条数据,只需要拿出1W条来当验证集,1W条来当测试集,就能很好地work了。就像是考试,考的题是平常都没有见过,考察学生举一反三的能力。原创 2022-02-04 18:53:10 · 2032 阅读 · 0 评论 -
【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象?
目录1.过拟合2.欠拟合3.过拟合和欠拟合图像4.降低过拟合风险的方法5.降低欠拟合风险的方法6.相关面试题1.过拟合定义:过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。2.欠拟合定义:欠拟合是指模型在训练和预测时表现都不好的情况,反映到评估指标上,就是模型在训练集和测试集上的表现都不好。3.过拟合和欠拟合图像4.降低过拟合风险的方法1)降低模型复杂度: 数据较少时,模型过于复杂是产生过拟合的主要因素。适当降低模型原创 2022-01-30 10:05:43 · 5909 阅读 · 0 评论 -
【机器学习算法面试题】四.深度神经网络中激活函数有哪些?
Hard-Logistic函数是对Logistic函数的分段近似,并且可以取到端点的值。在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是()在某神经网络的隐层输出中,包含0.75,那么该神经网络采用的激活函数可能是()A.sigmoid函数(应该是特指的Logistic函数)的值域为(0, 1)Hard-Tanh函数是对Tanh函数的分段近似,并且可以取到端点的值。A.sigmoid函数(特指Logistic函数)的值域为(0, 1)B.tanh函数的值域为(-1, 1)原创 2022-01-29 11:54:33 · 5186 阅读 · 0 评论 -
【机器学习算法面试题】三.数据处理时应如何处理类别型特征?
序号编码(Ordinal Encoding)通常用于处理类别间具有大小关系的数据。如成绩有“高、中、低”,并且存在“高>中>低”的关系,可以按照大小关系赋予数值ID:3,2,1。类别型特征主要指性别(男、女)、血型(A、B、O、AB)等只有在优先选项内取值的特征。在SVM、逻辑回归等模型中,类别型特征需要处理成数值型特征才能被使用。1)先将类别特征赋予一个数值型的唯一ID(十进制的整数)2)将每个类别特征对应的数值型的唯一ID转换成二进制。原创 2022-01-28 21:01:58 · 850 阅读 · 0 评论 -
【机器学习算法面试题】二.精确率Precision和召回率Recall的权衡。
目录一、TP / FN / FP / TN二、精确率Precision三、召回率Recall四、F1值(F1 score)一、TP / FN / FP / TN预测问题会有下列4种情况:TP / FN / FP / TN第一个字母(True/False)表示你的预测值是否正确,第二个字母(Positive/Negative)表示你的预测的结果是什么。通常,以关注的类作为“正类”,其他类为负类。在垃圾邮件检测中,“垃圾邮件”是正类,则“正常邮件”是负类。TP——True,Positive:预测正确&a原创 2022-01-28 20:39:53 · 1270 阅读 · 0 评论 -
【机器学习算法面试题】一.准确率Accuracy的局限性。
序言在模型评估的过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理的运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。准确率的定义Accuracy = N(correct) / N(total)其中,N(correct) 为正确分类的样本数,N(total) 为总样本数。局限性准确率是分类问题最简单也是最直接的评价标准,但存在明显的缺陷。如:当负样本数占99%时,分类器把所有样本都预测为负样原创 2022-01-20 20:11:34 · 1512 阅读 · 0 评论