参考: https://www.processon.com/view/link/63637c0d7d9c084cafb49cfe
前言
上节中,我们已经实现了基础的信息增熵算法, 接下来我们学习下关于CART(Classification and Regression Tree)
Cart
cart 就是根据gini 系数, 数据的混乱程度来进行划分, gini系数越小,代表同类的可能性越大,越有利于划分为同类。
计算公式:
其中, Ck为样本类的个数, D为样本总数
可以发现, 样本类数越多, gini