阐述
参考视频: https://www.bilibili.com/video/BV1Ps411V7px?p=6&vd_source=c7a17cdbe5b7a027401c329724b632e9
一句话概括决策树
每次使用最大增熵将数据集划分
决策树的关键步骤
- 计算信息增益
- 决策树的生成
- 进行决策树的剪枝
概念解说
熵
这是用来度量信息的一个单位(bit),关于如何定量的来描述信息,几千年来都没有人给出很好的解答。直到1948年,香农在他著名的论文“通信的数学原理”中提出了信息熵(information entropy) 的概念,才解决了信息的度量问题,并且量化出信息的作用。
信息的信息量与他所带来的不确定性有关,如: 我们说我要去西藏,这条信息的不确定性很低,信息熵很小。
又如: 我这里有16个号码,你猜我选的是哪个? 这个信息量是巨大的,我们需要通过不同的信息, 如:你喜欢的数字,生
本文介绍了决策树的基本概念,包括熵、条件熵和信息增益,强调了信息熵在衡量数据不确定性中的作用,并通过实例说明如何计算信息增益以选择最优特征进行数据划分。
订阅专栏 解锁全文
1323

被折叠的 条评论
为什么被折叠?



