这个面试的时候也经常会问,让你比较某几个算法的适用条件,数据、特征量到什么规模时选用哪种算法。
(1)决策树
适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。
优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。
缺点:1.容易过拟合(随机森林);2.处理缺失数据时的困难。
(2) SVM
适用条件:特征空间大,可以处理非线性的特征。
优点:1.可以处理高维特征;2.使用和函数应对非线性特征空间;3.分类面不依赖所有数据;4.对缺失的一些数据并不敏感。
缺点:1.对于大量的预测样本,效率会很低;2.需要找合适的核函数。

本文总结了决策树、SVM、逻辑回归(LR)和神经网络的适用条件、优缺点。决策树适用于非线性边界,但易过拟合;SVM擅长处理高维非线性问题,但核函数选择关键;LR模型简单快速,但对非线性特征需转换;神经网络能处理复杂非线性关系,但参数多、训练时间长。
最低0.47元/天 解锁文章
444

被折叠的 条评论
为什么被折叠?



