21、决策树、随机森林与机器人路径规划全解析

决策树、随机森林与机器人路径规划全解析

1. 理解熵与决策树

熵是对给定数据样本中无序程度的一种度量,也可称为信息增益,因为它衡量了每个标准对确定类别归属的贡献程度。熵的计算公式为:
[Entropy = -p\times\log_2(p) - p_i\times\log_2(p_i)]
在程序中使用熵作为分组标准,只需修改一行代码:

dTree = tree.DecisionTreeClassifier(criterion ="entropy")

使用熵作为标准构建决策树时,初始熵值为 2.55,在叶节点处降为 0。与基尼方法相比,熵方法选择了不同的标准,例如基尼分类器从“Length”开始,而熵分类器从“Material”开始。熵方法还考虑了“Noise”(玩具是否发声),正确识别出只有玩具乐器和带有电子发声盒的玩具飞机能发声。

然而,在使用“Material”进行分类时出现了问题。当“Material”值小于 2.5 时,对应的是“ceramic”或“fur”,但这两种材料除了在字母表中的位置外并无实际关联,这是数据编码为顺序数字导致的虚假关系。为解决此问题,可采用独热编码(One-Hot Encoding)。

2. 独热编码的实现

独热编码的概念很简单,即不为每个类别分配一个枚举值,而是为每个可能的值添加一列,并根据该值将其设置为 1 或 0。以“Material”为例,可将其替换为五列,分别对应“ceramic”、“fur”、“metal”、“plastic”和“wood”,如下表所示:
| Mat

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值