3.3 决策树DecisionTrees

本文深入探讨了决策树这一经典机器学习算法。从基本概念出发,介绍了决策树的构造过程及其核心参数,如depth_map和min_samples_split。此外还讨论了熵与信息增益等衡量指标,并分析了决策树的优势与潜在问题,特别是过拟合风险及如何通过集成学习来缓解。最后,文章提供了使用GridSearchCV来优化决策树参数的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

一个接一个的解决多元线性问题,如同不停的问问题,不同问题的分支,就如同设定了多个决策面

1. SupportVectorMachines

1.1. 导入代码:
from sklearn import tree
clf = tree.DecisionTreeClassifier()#对于分类问题
clf = tree.DecisionTreeRegressor()#对于回归问题
1.2 决策树常见参数
  • depth_map,越小容易高偏差,拟合不够,越大容易高方差,过拟合。
  • min_samples_split,最小样本分割数量,分到剩下多少个就不再分。越小决策树越复杂,准确率可能反而降低
1.3 熵 Entropy

测量一系列样本不纯度的方式
entropy = i0Pilog2Pi

1.4 信息增益

决策树会最大化信息增益,信息增益 = 父熵 - 权 x 子熵,根据信息增益进行拆分
可以参考 信息论的熵

1.5 优缺点

比支持向量机还好理解,不过当存在大量特征时,容易过拟合,可以通过集成,构建更大的分类器

1.6 决策树的可表达性

AND OR XOR

1.7 ID3
1.8 常用GridSearchCV,寻找最佳参数组合
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值