1.为什么需要对数值类型的特征做归一化?

博客介绍了对数值类型特征做归一化的作用,能统一特征数值区间、减少迭代步数。还阐述了两种常用归一化方法:线性函数归一化和零均值归一化。同时指出通过梯度下降法求解的模型通常需归一化,而决策树模型不适用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对数值类型的特征做归一化可以将所以的特征都统一到一个大致相等的数值区间内。

 

比如x1的范围是[0,10],x2的范围是[0,100]。 两者的量纲是不等的,可想而知相比于x1,x2需要更多的迭代步数才能收敛到最佳值,从而使最后的结果更青睐于x2特征。
而当归一化后,x1,x2的量纲相等,不仅能减少迭代步数,还能使两种特征对最后的结果影响相同。

最常用的方法有2种

(1)线性函数归一化:

对原始数据进行线性变换,使结果映射到【0,1】的范围,实现对原始数据的等比缩放。

Xnorm=\frac{X-Xmin}{Xmax-Xmin}

X为输入数据,其他分别是最大值  最小值   输出结果,结果就是把所有X 的值等比线性换算到[0,1]区间 

 

(2)零均值归一化:

·把数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为u,标准差为\delta,那么归一化公式

                              z=\frac{x-u}{\delta }

标准差:所有数减去平均值,它的平方和除以数的个数(或个数减一),再把所得值开根号,就是1/2次方,得到的数就是这组数的标准差。

在实际应用中,通过梯度下降法求解的模型通常需要归一化的,包括线性回归,逻辑回归,支持向量机,神经网络等模型。

但是对于决策树模型则并不适用,决策树在进行节点分裂时主要依据数据集关于特征X的信息增益比,而信息增益比跟特征是否经过归一化是无关的,因为归一化并不能改变样本在特征X上的信息增益。

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值