计算类算法使用数据数据一步一步计算,最能形象化理解算法,也容易掌握。如果不懂基尼指数定义,可以百度。
下面以常用的贷款申请样本数据表为样本集,通过数学计算来讲解基尼指数的计算方法和过程。
1.样本数据集合D
样本集简介:
样本集有15个example样本
每个样本有4个特征(年龄age,是否工作work,是否有房子house,信用情况credit),1个分类结果refuse或者agree
age取值集合 ={youth, mid, elder}
work取值集合 ={no, yes}
house取值集合 = {no, yes}
credit取值集合 = {common, good, excellent}
class取值集合 = 申请贷款结果集合 = {refuse, agree}
| ID | age | work | house | credit | class |
| 1 | youth | no | no | common | refuse |
| 2 | youth | no | no | good | refuse |
| 3 | youth |
yes | no | good | agree |

本文通过一个贷款审批的样本数据集,详细介绍了如何利用CART算法计算基尼指数,求解最优特征和最优切分点,最终构建决策树的过程。内容涵盖样本数据描述、各个特征的基尼指数计算,以及最优特征的选择方法,帮助读者深入理解CART算法。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



