
决策树
海滩上的那乌克丽丽
I can because i believe i can.
展开
-
ccp代价复杂度剪枝(CART)
问题:前剪枝可以防止过拟合,前剪枝是训练模型的时候输入一些超参数,让树预先固定深度或者叶子节点数量,这样的话容易造成欠拟合。后剪枝:先让树充分生长,在进行剪枝。ccp代价复杂度剪枝代价和复杂度的关系我们会预先设定一个超参数,在训练完成后,在进行剪枝T0会计算一个α,T1会计算一个α,T2会计算一个α,假如某α在剪枝的过程中大于超参数α,那就说这棵树是理想的树。如何选定超参数α?我们如果要找既没有欠拟合有没有过拟合的最好时刻的α,就要根据真实的误差估计选择最佳.原创 2022-03-18 15:21:49 · 1677 阅读 · 0 评论 -
信息增益率
1.问题 :对于多叉树,如果我们对分支不做限制,那么一次分裂就可以将信息熵降为0。比如下图我们按照uid分类,如果不限制分支,那么每一个uid都可以分成一类,那么信息熵就一次分裂变成0.最终一共15个uid,不限制分支,就分成了15类,信息熵为0。信息增益这个指标,更倾向于分成多个分支的情况2.为了解决信息增益着一种情况,有了信息增益率。信息增益率:信息增益除以类别本身的熵。(用的比较少,代码中封装的一般是Gini,信息增益,因为一般我们会限制树只能是二叉树)...原创 2022-03-11 13:34:57 · 545 阅读 · 0 评论 -
基尼系数和信息增益的关系
说白了Gini系数就是x=1出对熵的一阶泰勒展开。所以不管是信息熵还是Gini系数都可以作为分类的纯度。(本质上没什么区别)原创 2022-03-11 11:27:14 · 692 阅读 · 0 评论 -
决策树分类指标(信息增益ID3)
1.信息量=熵=不确定性在决策树中熵代表不纯度,熵越高代表数据越不纯,熵更小,就更容易把数据更好的分开。2.计算公式:举例:分类之前的整体熵:按性别分类:按照活跃度分类同样的计算方式再得到一个信息增益比较活跃度的信息增益和性别的信息增益发现活跃度信息增益远大于性别的信息增益,所以选择活跃度信息增益作为分类指标。...原创 2022-03-11 11:13:56 · 781 阅读 · 0 评论 -
生成决策树所需要的分裂指标(基尼系数)
1.基尼系数:最大为1,最小为0。越接近于0代表收入越平等,越接近于1代表收入越悬殊。那么在决策树分类中,Gini系数越小,数据集合大小越平等,代表集合数据越纯。我们可以在分类前计算一下Gini系数,分类后在计算一下Gini系数。找到分类后最小的基尼系数就代表分类条件最好。我们一定要找到某个分类条件可以使得分类后的基尼系数最小。可以尝试多个分类条件,哪个分类条件分类完成后基尼系数最小,哪个分类条件就比较好。分类前基尼系数计算公式分类后基尼系数计算公式:上图是对鸢...原创 2022-03-11 10:44:02 · 6858 阅读 · 0 评论 -
决策树算法
介绍:决策树算法属于有监督机器学习的一种,起源非常早,非常直观,现在更多是基于决策树的一些集成学习的算法。特点:1.可以处理非线性的问题2.可解释性强,没有θ3.模型简单,预测效率高if else,if为真走左边,else走另一边。4.决策树不太容易写出来函数表达式。决策树模型生成和预测模型生成:通过大量数据生成一颗非常好的树,用这棵树来预测新来的数据预测:来一条新数据,按照生成好的树标准,落到某一个节点上。决策树的数学表达形式gt(x):某.原创 2022-03-11 09:59:40 · 753 阅读 · 0 评论