8月吃瓜教程—task03-学习笔记

第四章

4.1 算法原理
截图至datawhale
相当于在生成树,树的叶子节点代表了一个预测类别

4.2 为什么使用信息熵作为纯度判断标尺
信息熵用于对类别y作随机变量,将“不确定性”转换理解为集合内样本的“纯度”

信息熵 在这里插入图片描述
当X越大,即p(x) = 变量取值分之一,不确定性最大,即样本的纯度最低

4.3 如何优化使模型结果更好?
划分选择:
1、使用信息增益
- 选择属性之后的信息增益最大的属性值
2、使用增益率
- 对信息增益的改进,但存在对取值数目较少的属性的偏好
3、使用基尼指数
- 反应随机两个样本之间的不一致的概率,在实际操作中,用二叉树判断属性的基尼指数
- 即将D对属性a每个可能的取值v,将D分成a = v 和a != v,计算基尼指数。

4.4 剪枝处理
用于防止过拟合
方法:

  • 预剪枝
  • 后剪枝

4.5 连续值的处理
二分法处理后选取划分点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值