目录
0、前言
数据处理之特征缩放和特征编码,特征缩放主要是归一化和正则化,用于消除量纲关系的影响,特征编码包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续型特征。
1、特征缩放
特征缩放主要有两种方法:归一化和正则化。
1.1 归一化
归一化(Normalization),也称为标准化,不仅仅是对特征,实际上对于原始数据也可以进行归一化处理,它是将特征(或者数据)都缩放到一个指定的大致相同的数值区间内。
归一化的两个原因:
- 某些算法要求样本数据或特征的数值具有零均值和单位方差;
- 为了消除样本数据或者特征之间的量纲影响,即消除数量级的影响。
1.1.1 Min-Max Scaling
它对原始数据进行线性变换,使得结果映射到[0,1]的范围,实现对原始数据的等比缩放,公式如下:
x* = (x-x.min)/(x.max-x.min)
其中 X 是原始数据,x.max,x.min分别表示数据最大值和最小值。
1.1.2 Z-Score Normalization
它会将原始数据映射到均值为 0,标准差为 1 的分布上。假设原始特征的均值是μ、标准差是σ,则公式如下:
x* = (x-μ)/σ
1.1.3 归一化总结
如果数据集分为训练集、验证集、测试集,那么三个数据集都采用相同的归一化参数,数值都是通过训练集计算得到,即上述两种方法中分别需要的数据最大值、最小值,方差和均值都是通过训练集计算得到
归一化不是万能的,实际应用中,通过梯度下降法求解的模型是需要归一化的,这包括线性回归、逻辑回归、支持向量机、神经网络等模型。但决策树模型不需要,以 C4.5 算法为例,决策树在分裂结点时候主要依据数据集 D 关于特征 x 的信息增益比,而信息增益比和特征是否经过归一化是无关的,归一化不会改变样本在特征 x 上的信息增益。
1.2 正则化
正则化是将样本或者特征的某个范数(如 L1、L2 范数)缩放到单位 1。
对样本首先计算 Lp 范数,正则化后的结果是:每个属性值除以其 Lp 范数