
ML-Interview-Question
文章平均质量分 88
cc13186851239
这个作者很懒,什么都没留下…
展开
-
机器学习 面试题-第十章 集成学习(大厂必问,历经半年整理)
集成学习非常重要,以下题目非常全!10.集成学习10.1 Boosting(提升法)10.1.1 梯度提升(GBDT)10.1.1.1 GBDT是训练过程如何选择特征?10.1.1.2 GBDT如何防止过拟合?由于gbdt是前向加法模型,前面的树往往起到决定性的作用,如何改进这个问题?10.1.1.3 梯度提升的如何调参?10.1.1.4 GBDT对标量特征要不要one-hot编码?10.1.1.5 为什么GBDT用负梯度当做残差?10.1.2自适应提升(AdaBoost)10.1.2.1 为什么Adab原创 2021-03-04 21:18:30 · 1685 阅读 · 1 评论 -
机器学习 面试题-第九章 SVM(大厂必问,历经半年整理)
文章目录9.SVMSVM的推导9.1 SVM的原理是什么?9.2 SVM 为什么采用间隔最大化?9.3 为什么 SVM 要引入核函数?9.4 为什么SVM对缺失数据敏感?9.5 SVM 核函数之间的区别9.6 SVM如何处理多分类问题?9.7 带核的SVM为什么能分类非线性问题?9.8 RBF核一定是线性可分的吗?9.9 常用核函数及核函数的条件?9.10 为什么要将求解 SVM 的原始问题转换为对偶问题?9.11 SVM怎么输出预测概率?9.12 如何处理数据偏斜?9.13 LR vs SVM9.14 参原创 2021-03-04 21:09:00 · 896 阅读 · 1 评论 -
机器学习 面试题-第八章 KNN(大厂必问,历经半年整理)
文章目录8.KNN8.1 简述一下KNN算法的原理?8.2 如何理解kNN中的k的取值?8.3 在kNN的样本搜索中,如何进行高效的匹配查找?8.4 KNN算法有哪些优点和缺点?8.5 不平衡的样本可以给KNN的预测结果造成哪些问题,有没有什么好的解决方式?8.6 为了解决KNN算法计算量过大的问题,可以使用分组的方式进行计算,简述一下该方式的原理。8.7 如何优化Kmeans?8.8 在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?8.9 参数说明以及调参8.原创 2021-03-04 21:03:34 · 1726 阅读 · 2 评论 -
机器学习 面试题-第七章 决策树(大厂必问,历经半年整理)
文章目录7.决策树7.1 ID3算法7.2 C4.5算法7.2.1 既然信息增益可以计算,为什么C4.5还使用信息增益比?7.3 CART算法7.3.1 基尼指数和信息熵都表示数据不确定性,为什么CART使用基尼指数?7.3.2 基尼系数(Gini)存在的问题?7.4 ID3 vs C4.5 vs CART7.5 决策树7.5.1 决策树的数据split原理或者流程?7.5.2 构造决策树的步骤?7.5.3 决策树算法中如何避免过拟合和欠拟合?7.5.4 决策树怎么剪枝?7.5.5 决策树的优缺点?7.5原创 2021-03-03 21:29:26 · 2397 阅读 · 1 评论 -
机器学习 面试题-第六章 特征工程(大厂必问,历经半年整理)
文章目录6.特征工程6.1 特征选择6.1.1 什么是特征选择?为什么需要它?特征选择的目标?6.1.2 有哪些特征选择技术?6.2 特征提取6.3 特征选择 vs 特征提取6.4为什么要处理类别特征?怎么处理?6.5 什么是组合特征?6.6 怎么有效地找到组合特征?6.7 如何处理高维组合特征?6.8 如何解决数据不平衡问题?6.9 数据中有噪声如何处理?6.10 FM6.10.1 SVM vs FM6.11 FFM6.特征工程特征工程分三步: ①数据预处理;②特征选择;③特征提取。6.1 特征原创 2021-03-03 21:24:09 · 1531 阅读 · 1 评论 -
机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)
文章目录5.正则化手推L1,L25.1 什么是正则化?如何理解正则化?5.2 L0、L1、L2正则化?5.3 L1和L2正则化有什么区别?5.4 L1在0处不可导是怎么处理的?5.5 L1正则化产生稀疏性的原因?对稀疏矩阵的理解?5.6 为何要常对数据做归一化?5.7 归一化的种类5.8 归一化和标准化的区别5.9 需要归一化的算法有哪些?这些模型需要归一化的主要原因?5.10 树形结构的不需要归一化的原因?5.正则化手推L1,L25.1 什么是正则化?如何理解正则化?定义: 在损失函数后加上一原创 2021-03-03 21:21:17 · 991 阅读 · 1 评论 -
机器学习 面试题-第四章 评估指标(大厂必问,历经半年整理)
文章目录4.评估指标4.1 什么是准确率,精准率,召回率和F1分数?混淆矩阵4.2 模型常用的评估指标有哪些?4.2.1 Precision(查准率)4.2.2 Recall(查全率)4.2.3 P-R曲线4.2.4 F1-Score4.2.5 ROC和AUC4.2.5.1什么是ROC曲线?如何判断 ROC 曲线的好坏?4.2.5.2 什么是AUC?4.2.5.3 如何解释AU ROC分数?4.3 多标签分类怎么解决?4.评估指标4.1 什么是准确率,精准率,召回率和F1分数?混淆矩阵准确率 = (原创 2021-03-03 21:18:47 · 469 阅读 · 1 评论 -
机器学习 面试题-第三章 验证方式(大厂必问,历经半年整理)
文章目录3.验证方式3.1什么是过拟合?产生过拟合原因?3.2 如何避免过拟合问题?3.3 什么是机器学习的欠拟合?3.4 如何避免欠拟合问题?3.5 什么是交叉验证?交叉验证的作用是什么?3.6 交叉验证主要有哪几种方法?3.7 什么是K折交叉验证?3.8 如何在K折交叉验证中选择K?3.9 网格搜索(GridSearchCV)3.10随机搜素(RandomizedSearchCV)3.验证方式3.1什么是过拟合?产生过拟合原因?指模型在训练集上的效果很好,在测试集上的预测效果很差.1.数据有噪声原创 2021-03-03 21:13:27 · 717 阅读 · 1 评论 -
机器学习 面试题-第二章 线性模型(大厂必问,历经半年整理)
文章目录2.线性模型2.1 线性回归2.1.1 什么是回归?哪些模型可用于解决回归问题?2.1.2 线性回归的损失函数为什么是均方差?2.1.3 什么是线性回归?什么时候使用它?2.1.4 什么是梯度下降?SGD的推导?2.1.5 什么是最小二乘法(最小平方法)?2.1.6 常见的损失函数有哪些?2.1.7 有哪些评估回归模型的指标?2.1.8 什么是正规方程?2.1.9 梯度下降法找到的一定是下降最快的方向吗?2.1.10 MBGD需要注意什么?2.2 LRLR的推导2.2.1为什么 LR 要使用 si原创 2021-03-03 21:09:51 · 1573 阅读 · 1 评论 -
机器学习面试题-第一章 模型分类
文章目录1.机器学习模型1.1 有监督学习模型1.2 无监督学习模型1.3 概率模型1.4 什么是监督学习?什么是非监督学习?回归,分类,聚类方法的区别和联系并举例,简要介绍算法思路。生成模式 vs 判别模式生成模型:判别式模型:1.机器学习模型1.1 有监督学习模型1.2 无监督学习模型1.3 概率模型1.4 什么是监督学习?什么是非监督学习?所有的回归算法和分类算法都属于监督学习。并且明确的给给出初始值,在训练集中有特征和标签,并且通过训练获得一个模型,在面对只有特征而没有标签的数据时原创 2021-03-03 21:00:17 · 501 阅读 · 1 评论