常见机器学习模型(二)——决策树与随机森林

决策树与随机森林并不能算得上是一种模型,它只能说是一种方法。常见的决策树算法有C4.5、ID3和CART。先来看一些预备知识。

信息、熵、信息增益、基尼系数

信息

通信领域的里程碑式的人物香农提出:信息是用来消除随机不确定性的东西。这句话你可以倒过来理解:用来消除随机不确定性的东西才叫信息。

对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义为:

image-20200804083653949

熵是约翰.冯.诺依曼建议使用的命名,熵=信息的期望值:

image-20200804083745967

熵用来度量不确定性的,当熵越大,X=xi的不确定性越大

信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好:

image-20200804083858865

原有树的熵 H(D) 增加了一个分裂节点࿰

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值