【机器学习】特征归一化的重要性及方式

YoseZang

已于 2025-02-22 14:35:33 修改

阅读量460

点赞数 3

分类专栏：机器学习文章标签：机器学习深度学习人工智能

于 2025-02-11 10:11:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46366218/article/details/145560503

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

特征归一化

V1.0

特征归一化的重要性

特征归一化的问题产生于，我们在使用特征向量中不同的特征数据时，特征数据尺度（或者说数量级不同）而造成的问题。
例如，KNN算法中不同的计算距离时，不同特征的量纲不同，比如说特征1的数量级大概在 $100$ 左右附近，特征2的数量大概在 $1$ 左右附近，在使用特征1和特征2计算距离时，特征1就会对最终的距离结果产生很大的影响，而特征2的影响就变得相对小很多，这会导致结果的较大偏差。因此要进行特征归一化，将不同特征变换到同一尺度。
$distance=\sqrt{(120-90)^2+(1.2-1.0)^2}$

特征归一化的方式

特征归一化主要包括两种方式

最大最小值归一化
零均值归一化

最大最小值归一化

$x_{norm}=\frac{x-x_{min}}{x_{max}-x_{min}}$
其中 ${x_{min}}$ 是数据的最小值， ${x_{max}}$ 是数据的最大值。
适用于数据有限范围的情况，因为其需要使用最大值和最小值。

最大最小值归一化的局限性

极端数据会对最大最小值归一化的结果产生较大影响。
假设我们有一组一维数据，其中有一个很极端的数据，比如说5000。其他数据大概分布在0-1000左右，这会导致这组数据的最大最小值归一化的结果，一般的数据会分布在0.2左右。

零均值归一化

$x_{norm}=\frac{x-\mu}{\sigma}$
其中 $\mu$ 是数据的均值， $\sigma$ 是数据的标准差。
零均值归一化，适合于绝大多数的情况。

测试集的归一化

假设我们使用零均值归一化，得出了训练集的数据，即训练集的均值和标准差。那么我们在测试集上使用什么均值和标准差呢？
正确的方法是使用训练集的数据，这是因为测试集的数据往往较难获得。在测试样本较少的情况下，不能很好表示的平均的样本的分布情况。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YoseZang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。