(1)在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益,选择最大信息增益的属性来划分,
因为信息增益(原系统熵-该属性比例X该属性的熵)越大,区分样本的能力就越强,越具有代表性,很显然这是一种自顶向下的贪心策略。
(2) 原信息的混乱程度很严重,所以熵比较大;
而知道某个属性和原信息有关时,相当于知道了更多的信息,所以原信息的混乱程度减少(熵减少),信息增益会变大
信息增益最通俗解释
最新推荐文章于 2025-03-14 21:25:58 发布
本文深入解析决策树算法的核心原理,阐述了如何通过计算信息增益选择最佳属性进行数据集划分,以及信息增益如何反映数据集混乱程度的变化,强调了在决策树构建过程中自顶向下的贪心策略。
7184

被折叠的 条评论
为什么被折叠?



