24、数据预处理:归一化、标准化及其他变换方法

数据预处理:归一化、标准化及其他变换方法

在数据处理和机器学习中,数据的预处理是至关重要的一步。不同特征的数据范围可能差异很大,而较大的数值可能会对学习程序产生更大的影响。为了使所有数据大致具有可比性,我们通常会对数据进行一些变换操作。

1. 归一化(Normalization)

归一化是数据变换中常见的第一步。在统计学意义上,当我们将数据缩放到某个特定范围时,就称数据被归一化了。最常用的归一化范围是 [-1,1] [0,1] ,具体选择取决于数据及其含义。例如,谈论负数的苹果数量或年龄是没有意义的,所以对于这类数据, [0,1] 可能是更合适的范围。

大多数机器学习库都提供了归一化的函数,但我们需要记得调用它。以一个由 232 个点组成的吉他形状的二维数据集为例,假设这些点代表某些测量结果,如人的年龄和体重,或者歌曲的节奏和音量,我们将其两个特征分别记为 x y

当我们将吉他形状数据的每个特征归一化到 [-1,1] 范围时, x 值从 -1 1 进行缩放, y 值也独立地从 -1 1 进行缩放。但最终得到的吉他形状会有一点扭曲,这是因为 y 轴方向的拉伸程度比 x 轴更大。这是由于原始数据的不同维度跨越的范围不同,在这个例子中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值