树形结构为什么不需要归一化?

树形结构如决策树、RF在构建时不需归一化,因数值缩放不影响分裂点,且树模型不涉及梯度下降。归一化主要对线性模型如LR有益,能减少迭代次数。标准化使特征均值为0,方差为1,归一化则常用于确保数据在同一数量级。文章还提及了机器学习课程和相关资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640?wx_fmt=other


640?wx_fmt=gif

树形结构为什么不需要归一化?


解析:

 
 
 
 

因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。

 
 

按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。

而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。

既然树形结构(如决策树、RF)不需要归一化,那为何非树形结构比如Adaboost、SVM、LR、Knn、KMeans之类则需要归一化呢?

对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。
但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。

除了归一化,我们还会经常提到标准化,那到底什么是标准化和归一化呢?

标准化:特征均值为0,方差为1

公式:640?wx_fmt=png
归一化:把每个特征向量(特别是奇异样本数据)的值都缩放到相同数值范围,如[0,1]或[-1,1]。

最常用的归一化形式就是将特征向量调整为L1范数(就是绝对值相加),使特征向量的数值之和为1。
而L2范数就是欧几里得之和。
data_normalized = preprocessing.normalize( data , norm="L1" )

公式:

好的,我会尽量以简单易懂的方式解释。 1. 数据归一化是什么? 在机器学习和数据分析中,数据归一化是指将数据缩放到一个特定的范围内。这样做的目的是消除同特征之间的量纲差异,使各个特征对模型的影响权重更加平衡,避免因为数据范围同而导致的误差。 在这段代码中,使用的是 min-max 归一化方法,将输入数据缩放到 0~1 的范围内。具体做法是,对于每一列数据,将它们的最小值设为 0,最大值设为 1,其它值通过线性变换映射到 0~1 的范围内。 2. 决策树是什么? 决策树是一种基于树形结构的分类或回归模型,它通过一系列的问答来对数据进行分类或预测。每个节点代表一个特征,每个分支代表这个特征的一个取值,每个叶子节点代表一个类别或一个数值。 在这段代码中,使用的是基于决策树的回归模型,即用决策树来预测数据集中某一列的数值。 3. 决策树数目、最小叶子数会影响实验结果吗?怎么影响? 决策树数目和最小叶子数是决策树模型的两个重要参数,它们会影响模型的性能和准确率。 决策树数目表示构建多少棵决策树,它的值通常越大,模型的准确率也会越高。但是,当决策树数目过大时,容易出现过拟合的情况,即模型过于复杂,对训练数据过度拟合,导致在测试数据上表现佳。 最小叶子数表示每个叶子节点至少包含多少个样本,它的值通常越小,模型的准确率也会越高。但是,当最小叶子数过小时,容易出现过拟合的情况,而当最小叶子数过大时,容易出现欠拟合的情况,即模型过于简单,无法捕捉数据的复杂模式。 因此,在实际应用中,需要根据具体数据集和任务来选择合适的决策树数目和最小叶子数,以达到最好的模型性能和准确率。可以使用交叉验证等技术来进行参数选择和模型评估。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值