数据预处理:归一化、标准化及其他变换方法
在数据处理和机器学习中,数据的预处理是至关重要的一步。不同特征的数据范围可能差异很大,而较大的数值可能会对学习程序产生更大的影响。为了使所有数据大致具有可比性,我们通常会对数据进行一些变换操作。
1. 归一化(Normalization)
归一化是数据变换中常见的第一步。在统计学意义上,当我们将数据缩放到某个特定范围时,就称数据被归一化了。最常用的归一化范围是 [-1,1] 和 [0,1] ,具体选择取决于数据及其含义。例如,谈论负数的苹果数量或年龄是没有意义的,所以对于这类数据, [0,1] 可能是更合适的范围。
大多数机器学习库都提供了归一化的函数,但我们需要记得调用它。以一个由 232 个点组成的吉他形状的二维数据集为例,假设这些点代表某些测量结果,如人的年龄和体重,或者歌曲的节奏和音量,我们将其两个特征分别记为 x 和 y 。
当我们将吉他形状数据的每个特征归一化到 [-1,1] 范围时, x 值从 -1 到 1 进行缩放, y 值也独立地从 -1 到 1 进行缩放。但最终得到的吉他形状会有一点扭曲,这是因为 y 轴方向的拉伸程度比 x 轴更大。这是由于原始数据的不同维度跨越的范围不同,在这个例子中
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



