决策树 机器学习
本质:期望对已有数据集进行训练得到一个模型,来对新示例进行分类,这个分类的过程称之为决策,可看做:当前样本属于正类么。
1. 如何进行划分选择出最优划分属性
通过不断划分,希望决策树划分的分支结点所包含的样本尽可能属于同一类别。
1.1 信息增益
计算其信息熵,其值越小,D(数据集)的纯度越高。通过公式计算信息增益,计算属性a对样本集D进行划分后所获得的信息增益,信息增益越大,则用a进行划分所获得的纯度提升越大。对样例计算信息熵,然后通过样例计算的信息熵计算该属性的信息增益,比较各个属性的信息增益,最大的进行第一次划分。
不断划分得出决策树
2.1 增益率
防止出现纯度最大化的最求,既每个值分为一类。但一般不以该值做划分,而是先在候选划分属性中找到信息增益高于平均水平的,在从中找出增益率最高的。
1.2基尼指数
CATR决策树用该指数划分属性
2.1 剪枝处理
主要是对付过拟合使用的,防止分支过度,包含预剪枝和后剪枝两种方式,一种是结点划分前估计能够提高决策树泛化性能提高。另一种是对已经生成的决策树进行自底向上的考察,判断将子树化为叶节点是否提高性能。
使用留出法用作验证,将一部分作为验证集进行性能评估
2.2 预剪枝
计算剪枝前后的验证集精度,做精度高的决策。
但是预剪枝使很多分支都没有展开,可能有欠拟合的风险。
2.3 后剪枝
方法相同,但是同比于预剪枝欠拟合风险降低,泛化性能往往比较高,但是计算量增大
3.1 连续与缺失值
3.2 连续值
连续属性离散化技术,采用二分法进行处理,由公式进行计算
3.3 缺失值处理
4.1 多变量决策树