决策树学习

最新推荐文章于 2024-05-22 11:25:31 发布

只争朝夕^ω^)↗

最新推荐文章于 2024-05-22 11:25:31 发布

阅读量230

点赞数

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/vv___/article/details/79332147

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

决策树机器学习

本质：期望对已有数据集进行训练得到一个模型，来对新示例进行分类，这个分类的过程称之为决策，可看做：当前样本属于正类么。
1. 如何进行划分选择出最优划分属性
通过不断划分，希望决策树划分的分支结点所包含的样本尽可能属于同一类别。
1.1 信息增益
计算其信息熵，其值越小，D（数据集）的纯度越高。通过公式计算信息增益，计算属性a对样本集D进行划分后所获得的信息增益，信息增益越大，则用a进行划分所获得的纯度提升越大。对样例计算信息熵，然后通过样例计算的信息熵计算该属性的信息增益，比较各个属性的信息增益，最大的进行第一次划分。
不断划分得出决策树
2.1 增益率
防止出现纯度最大化的最求，既每个值分为一类。但一般不以该值做划分，而是先在候选划分属性中找到信息增益高于平均水平的，在从中找出增益率最高的。
1.2基尼指数
CATR决策树用该指数划分属性
2.1 剪枝处理
主要是对付过拟合使用的，防止分支过度，包含预剪枝和后剪枝两种方式，一种是结点划分前估计能够提高决策树泛化性能提高。另一种是对已经生成的决策树进行自底向上的考察，判断将子树化为叶节点是否提高性能。
使用留出法用作验证，将一部分作为验证集进行性能评估
2.2 预剪枝
计算剪枝前后的验证集精度，做精度高的决策。
但是预剪枝使很多分支都没有展开，可能有欠拟合的风险。
2.3 后剪枝
方法相同，但是同比于预剪枝欠拟合风险降低，泛化性能往往比较高，但是计算量增大
3.1 连续与缺失值
3.2 连续值
连续属性离散化技术，采用二分法进行处理，由公式进行计算
3.3 缺失值处理
4.1 多变量决策树