分类回归模型
- LR
- GBDT
- 原理以及公式推导
- ID3和C4.5的优缺点,树的融合
- GBDT的参数怎么调
- boost算法的思路是什么样的?讲一下你对adaboost 和 gbdt的了解?
- 决策树处理连续值的方法
- 优缺点,适用场景以及如何选型
- ID3,C4.5,CART等,决策树的split原理和剪枝策略
- ID3和C4.5的优缺点,树的融合
- RF(随机森林)
- XgBoost
- RF、GBDT和XGBoost都属于集成学习
- 贝叶斯(NB)
- 优缺点,适用场景以及如何选型
- 朴素贝叶斯的公式
- EM
- 神经网络
- BP神经网络推导
- 如何工作
- SVM
- 原理以及公式推导
- 优缺点,适用场景以及如何选型
- 为啥要引入拉格朗日的优化方法
- 怎么理解损失函数,SVM的损失函数是什么,写出公式
- 概率图模型
- HMM模型状态推导
模型通用问题
- 模型评估与选择
- 机器学习性能评价,准确率,召回率,ROC
- 偏差和方差是什么,高偏差和高方差说明了什么
- 交叉验证问题
- 模型融合问题
- 模型选择问题
- 分类模型如何选择?如何判断效果?如何计算AUC?你最熟悉的ensemble Classification model是什么?
- 特征选择
- 特征选择的方法
- 特征提取方法,如何判断特征是否重要
- 其他
- 如何用尽可能少的样本训练模型同时又保证模型的性能
- 过拟合问题
- 过拟合怎么解决,L1和L2正则化有什么区别
- 常见的防止过拟合的方法是什么?为什么l1、l2正则会防止过拟合?
- L1与L2的作用
- 过拟合怎么解决,L1和L2正则化有什么区别
- 常见的正则化有是么,有什么作用,为什么l1是会把feature压缩到0而l2做不到?
- 梯度下降的优缺点
- 降采样,PCA,LDA
- pca的基于特征值压缩的方法
- 基于isolation forest识别的方法
- 梯度下降的优缺点
- 常见损失函数
- Bagging 和 Boosting的区别
- 为什么用最小二乘而不是最小四乘
- GB和牛顿法的区别,它们和泰勒公式的关系
- 对比牛顿法、梯度下降法的关系
- FM,FFM,DNN,W&D
聚类模型
- kmeans
-
聚类过程
- kmeans的原理及如何选择k?如何选择初始点?
- 原理,优缺点以及改进
-
深度学习模型
- 循环神经网络中介绍一个你熟悉的
- 四种激活函数区别和作用
- 过拟合解决方法
- 梯度弥散
- 优化算法 adam,SGD等
- 分析Alexnet,VGG的网络结构以及各层作用
- XgBoost(好像很多公司也面到了)
- 梯度下降的优化
- 卷积核参数计算
- TensorFlow中的session是什么,session和interactivesession的区别
- CNN
- (CNN)卷及神经网络各层作用
- RNN
- (RNN)循环神经网络
- LSTM
NLP
- word2vec
- LDA
- bert,elmo,,glove,fasttext,wordrank,Seq2Seq
CV
推荐系统召回
- userCF
- itemCF
CTR预估
- LR+GBDT
- FM
- FFM
- W&D
参考链接
总结:常见算法工程师面试题目整理(一)
https://www.jianshu.com/p/c3c921dca07b
总结:常见算法工程师面试题目整理(二)
https://www.jianshu.com/p/4f91f0dcba95
算法工程师面试常见问题
https://blog.youkuaiyun.com/gzj_1101/article/details/79514902
2018/2019秋招/算法/NLP/深度学习/ML面试笔记