决策树、随机森林与机器人路径规划全解析
1. 理解熵与决策树
熵是对给定数据样本中无序程度的一种度量,也可称为信息增益,因为它衡量了每个标准对确定类别归属的贡献程度。熵的计算公式为:
[Entropy = -p\times\log_2(p) - p_i\times\log_2(p_i)]
在程序中使用熵作为分组标准,只需修改一行代码:
dTree = tree.DecisionTreeClassifier(criterion ="entropy")
使用熵作为标准构建决策树时,初始熵值为 2.55,在叶节点处降为 0。与基尼方法相比,熵方法选择了不同的标准,例如基尼分类器从“Length”开始,而熵分类器从“Material”开始。熵方法还考虑了“Noise”(玩具是否发声),正确识别出只有玩具乐器和带有电子发声盒的玩具飞机能发声。
然而,在使用“Material”进行分类时出现了问题。当“Material”值小于 2.5 时,对应的是“ceramic”或“fur”,但这两种材料除了在字母表中的位置外并无实际关联,这是数据编码为顺序数字导致的虚假关系。为解决此问题,可采用独热编码(One-Hot Encoding)。
2. 独热编码的实现
独热编码的概念很简单,即不为每个类别分配一个枚举值,而是为每个可能的值添加一列,并根据该值将其设置为 1 或 0。以“Material”为例,可将其替换为五列,分别对应“ceramic”、“fur”、“metal”、“plastic”和“wood”,如下表所示:
| Mat
超级会员免费看
订阅专栏 解锁全文
1078

被折叠的 条评论
为什么被折叠?



