决策树与高粱耐盐蛋白的研究探索
决策树构建与运输方式预测
信息增益衡量的是熵的预期减少量。在构建决策树时,信息增益最高的属性会被选为根节点,该属性的值则作为其子节点。接着,利用剩余属性,再次选取信息增益最高的属性作为子节点,重复这一过程。若 $S(V_i) \neq \varnothing$,构建的树会作为新分支添加到 $v_i$ 处。最终决策树的每个叶节点都给出了一个用于预测类别标签的规则。
以一个例子来说,个体乘坐公交、汽车和火车的概率分别为 0.4、0.3 和 0.3,那么熵值为 $-(0.4 \log_2(0.4) + 0.3 \log_2(0.3) + 0.3 \log_2(0.3)) = 1.571$。对于性别、是否有车、出行成本和收入这几个属性,计算其信息增益,结果如下表所示:
| 属性 | 信息增益 |
| — | — |
| 性别 | 0.125 |
| 是否有车 | 0.21 |
| 出行成本 | 1.21 |
| 收入水平 | 0.695 |
信息增益最高的属性是出行成本,因此将其作为根节点,其分支为标准、昂贵和便宜。然后对去除该属性后的其他属性继续计算信息增益,以“便宜”这个节点为例,结果如下表:
| 属性 | 信息增益 |
| — | — |
| 性别 | 0.322 |
| 是否有车 | 0.171 |
| 收入水平 | 0.171 |
通过这样的过程不断构建决策树,就可以根据属性预测运输方式。例如,对于属性为女性、有车、出行成本便宜的对象,预测的运输方式是公交。
算法复杂度分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



