4-7 数据的归一化

本文介绍了数据归一化的必要性,特别是针对不同量纲特征时,以避免距离计算的偏差。文章详细阐述了最值归一化和均值方差归一化两种方法,并提供了代码示例。此外,讨论了如何在测试集上进行归一化,强调了使用训练集的均值和方差。最后,文章探讨了K近邻算法在回归问题中的应用及其缺点,包括效率低、对异常值敏感、结果不可解释性和维度灾难问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.  为什幺要进行数据归一化?

2. 几种数据归一化方式

最值归一化: 把所有数据映射到0-1之间

均值方差归一化:把所有数据归一化到均值为0, 方差为1的分布中

3. 代码实现

最大值归一化:

均值方差归 一化

4. 对测试集如何归一化?   按照训练集的均值和方差进行归一化

代码

5. 使用K近邻算法解决回归问题

6. K近邻算法的缺点


1.  为什幺要进行数据归一化?

 

样本肿瘤大小和发现时间这两个特征的量纲不一样,在计算样本之间的距离时被发现时间所主导

将发现时间变成以年为单位又会导致样本之间的距离被肿瘤大小所主导

所以需要对数据进行归一化处理---将所有数据映射到同一尺度


2. 几种数据归一化方式

最值归一化: 把所有数据映射到0-1之间

x_{scale}=\frac{x-x_{min}}{x_{max}-x_{min}}   (将数据都映射到min和max区间之内, 然后归一化到0-1)

这种归一化方式适合有明显边界的情况(如学生成绩,像素值)

缺点: 受outlier的影响较大

均值方差归一化:把所有数据归一化到均值为0, 方差为1的分布中

(数据并不保证在0-1之间)

适用于数据分布没有明显的边界,有可能存在极端数据值

x_{scale}=\frac{x-\mu}{\sigma^2}


3. 代码实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值