这个面试的时候也经常会问,让你比较某几个算法的适用条件,数据、特征量到什么规模时选用哪种算法。
(1)决策树
适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。
优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。
缺点:1.容易过拟合(随机森林);2.处理缺失数据时的困难。
(2) SVM
适用条件:特征空间大,可以处理非线性的特征。
优点:1.可以处理高维特征;2.使用和函数应对非线性特征空间ÿ