MatLab 回归|分类树模型中树的参数解释

本文介绍了MatLab中决策树模型的参数,包括回归树和分类树。重点讲解了MaxNumSplits(最大分裂次数)、MergeLeaves(叶子合并)、MinLeafSize(最小叶子节点数)、NumVariablesToSample(随机选择的预测变量数)等关键参数,以及如何通过调整这些参数来防止过拟合。对于分类树,还讨论了AlgorithmForCategorical和MaxNumCategories等参数,对于回归树则提到了QuadraticErrorTolerance参数。这些参数对于理解和优化决策树模型至关重要。

对于回归树或者分类树

MaxNumSplits

每棵树的最大决策拆分(或分支节点)数量, templateTree拆分MaxNumSplits或更少的分支节点。对于ECOC模型中的袋装决策树和决策树二元学习器,默认值为n – 1,其中n是训练样本中的观察次数。 对于boost决策树,默认值为10。这个参数限制了每棵树的最大分裂次数,越小越不容易过拟合。

MergeLeaves

叶子合并标识,当“on”时,决策树将合并来自同一父节点的叶子,这些叶子提供的风险值之和大于或等于与父节点关联的风险。 当“off”时,决策树不会合并叶子。对于增强型和袋装型决策树,默认值为“ off”。 对于ECOC模型中的决策树二元学习器,默认值为“ on”。合并后有助于加快训练。

MinLeafSize

最小的叶子节点观测值数量,每片叶子每片叶子至少具有MinLeafSize观察值。 如果同时提供MinParentSize和MinLeafSize,则决策树将使用提供较大叶子的设置:MinParentSize = max(MinParentSize,2 * MinLeafSize)。对于增强型和袋装型决策树,默认值是1(分类)和5(回归)。 对于ECOC模型中的决策树二元学习器,默认值为1。这个参数越大,越不容易过拟合。

NumVariablesToSample

每次拆分随机选择的预测变量数量,指定为逗号分隔的一对,由“ NumVariablesToSample”和一个正整数组成。 或者,您可以指定“all”以使用所有可用的预测变量。如果训练数据包含许多预测变量,并且您想分析预测变量的重要性,则将“ NumVariablesToSample”指定为“全部”。 否则,该软件可能不会选择某些预测变量,从而低估了它们的重要性。另外,要重现随机选择,必须使用rng设置随机数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孤单又灿烂的Quant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值