关于决策树损失函数来源的理解与推导

最新推荐文章于 2025-09-27 15:38:35 发布

原创

最新推荐文章于 2025-09-27 15:38:35 发布 · 9.2k 阅读

35 ·

CC 4.0 BY-SA版权

本文探讨了决策树学习中的损失函数，源于正则化的极大似然函数。通过反向推导，解释了叶节点实例数与经验熵乘积之和的含义，将其与极大似然函数联系起来，帮助读者深入理解决策树模型的损失函数。

在阅读《统计学习方法》5.1.4决策树学习一节过程中，有如下一句话引起博主疑惑：决策树的损失函数通常是正则化的极大似然函数。书上并未给出具体推导，直到5.4决策树的剪枝中，直接给出了正则化的决策树损失函数： $C_{\alpha }(T)=\sum_{t=1}^{|T|}N_{t}H_{t}(T)+a|T|$ 。其中|T|代表叶节点个数， $N_{t}$ 表示具体某个叶节点的样例数， $H_{t}(T)表示叶节点经验熵$ 表示叶节点经验熵。

我们知道正则化的损失函数中前一项代表经验误差，而在概率模型中(决策树模型是一种概率模型)，经验误差函数的获得往往通过将极大似然函数取反，即将求极大化为求极小而获得。因此，在概率模型中，极大似然函数与经验误差函数可以认为是相同的概念，那么必然就可以通过经验误差函数来推导出极大似然函数，以此来加深对决策树损失函数的理解。

我相信有相当一部分读者与博主一样，并不理解决策树损失函数的真正意义，表面上来看：将每个叶节点的实例个数与其经验熵的乘积相加，这究竟代表个什么玩意呢？现在，我将利用该损失函数反向推导出极大似然函数，当我们看到极大似然函数时，便可以将损失函数看的透彻。

最低0.47元/天解锁文章

5 条评论

hao138548 2021.11.01
最后的极大似然的推导结论，把log提出去反而不利于理解了，如果是在用决策树做二分类，label符合伯努利分布(二项分布)，稍加变换就能得到交叉熵的结果，这也可以证明分类时决策树的损失函数等价于分类里面的交叉熵损失函数

张杰_ 2019.03.06
博主，你好。根据最后极大似然函数，是否先是对k做累乘，再对t做累乘，这样的话是先对叶节点内部进行极大似然估计，再对外部进行极大似然估计？不知道我的理解有没有错误，请指正。

jsonlovemeat 2018.11.29
极大似然函数是概率的乘积吧？

不想当筛子 2018.11.27
不错！博主把“损失函数等价于正则化的极大似然估计”的推导写出来了!蟹蟹！

Andy_yds 2018.11.15
你好不知道博主在看书的时候有没有注意到书中说 C(T)是模型对训练数据的预测误差，也就是博主写出的公式看到这不理解请问博主有什么见解吗？
- Andy_yds回复Roo4ie 2018.11.29
  [reply]wang1143790045[/reply] 谢谢楼主我在研究一下有啥问题跟你交流
- Roo4ie回复Andy_yds 2018.11.23
  [reply]weixin_41623662[/reply] 刚好看到这，有一些体会，不知道是否正确.书中C(T)式子中给出的是对所有叶节点，用每个叶节点的经验熵与对应叶节点的样本数的乘积的累加和来衡量预测误差。经验熵代表叶子节点内分类的混乱程度，而经验熵与对应的叶节点的数量相乘累加，反映的就是整体的混乱程度，即预测误差。不知道是否表达清楚。

louishao 2018.11.11
博主写得很好啊，看得确实比较细致！看了你的这篇博文，我对一个地方有点疑问，就是接近最后那里，写道：“先对各叶节点之间进行极大似然估计，再对各叶节点内部进行极大似然估计，由此得到决策树模型中的极大似然函数”，我看那个表达式，不是应该先算k的连乘，然后再算t的连乘，这样的话，k针对是是某个节点内部，而t是不同节点之间的，这样的话，就和你说的相反了。博主能再解释一下吗？可能是我的理解有错，忘博主纠正！
- 东大梅西回复louishao 2020.06.01
  [reply]louishao[/reply]我也觉得是说反了，应该是先算每个叶子节点的，然后再在节点内部计算每个K
- xcj_回复louishao 2020.04.11
  [reply]louishao[/reply]我觉得博主也说反了