35、决策树与高粱耐盐蛋白的研究探索

决策树与高粱耐盐蛋白的研究探索

决策树构建与运输方式预测

信息增益衡量的是熵的预期减少量。在构建决策树时,信息增益最高的属性会被选为根节点,该属性的值则作为其子节点。接着,利用剩余属性,再次选取信息增益最高的属性作为子节点,重复这一过程。若 $S(V_i) \neq \varnothing$,构建的树会作为新分支添加到 $v_i$ 处。最终决策树的每个叶节点都给出了一个用于预测类别标签的规则。

以一个例子来说,个体乘坐公交、汽车和火车的概率分别为 0.4、0.3 和 0.3,那么熵值为 $-(0.4 \log_2(0.4) + 0.3 \log_2(0.3) + 0.3 \log_2(0.3)) = 1.571$。对于性别、是否有车、出行成本和收入这几个属性,计算其信息增益,结果如下表所示:
| 属性 | 信息增益 |
| — | — |
| 性别 | 0.125 |
| 是否有车 | 0.21 |
| 出行成本 | 1.21 |
| 收入水平 | 0.695 |

信息增益最高的属性是出行成本,因此将其作为根节点,其分支为标准、昂贵和便宜。然后对去除该属性后的其他属性继续计算信息增益,以“便宜”这个节点为例,结果如下表:
| 属性 | 信息增益 |
| — | — |
| 性别 | 0.322 |
| 是否有车 | 0.171 |
| 收入水平 | 0.171 |

通过这样的过程不断构建决策树,就可以根据属性预测运输方式。例如,对于属性为女性、有车、出行成本便宜的对象,预测的运输方式是公交。

算法复杂度分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值