决策树是非线性有监督分类模型
决策树的生成取决于数据
决策树的生成:数据不断分裂和递归的过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子结点的数据是一类的时候,则停止分类。
决策树必须处理离散数据。
要把连续数据处理为离散数据。
决策树的分割条件,通过不断的尝试去提升分割后的纯度。
判断纯度的指标
-
基尼系数(分类)
-
熵(分类)
-
方差(回归)
决策树缺点: -
运算量大,加载全部数据,并寻找分割条件,计算量超级大。
-
样本出现异常数据时候,将会对决策树产生很大的影响,抗干扰能力差。
决策时最后只能返回某个类别,不像逻辑回归返回概率
决策树的过拟合体现在叶子结点过多,分类过细。
为了解决过细,采取剪枝措施
剪枝分为预剪枝,和后剪枝。
预剪枝:生成决策树之前采取措施 -
设置层次
-
控制样本数量(比如若分开后叶子结点样本数小于100,就不分了)
随机森林
随机:生成树的数据是从数据集中随机选取的
森林:由树组成