机器学习归一化特征编码

最新推荐文章于 2024-07-26 10:24:28 发布

小森( ﹡ˆoˆ﹡ )

最新推荐文章于 2024-07-26 10:24:28 发布

阅读量1.4k

点赞数 42

文章标签：机器学习人工智能深度学习

本文链接：https://blog.youkuaiyun.com/qq_64685283/article/details/139648023

版权

特征缩放

因为对于大多数的机器学习算法和优化算法来说，将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言，例如有两个不同的特征，第一个特征的取值范围为1——10，第二个特征的取值范围为1——10000。在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征，因为它的取值范围更大。在比如，k近邻算法，它使用的是欧式距离，也会导致其偏向于第二个特征。对于决策树和随机森林以及XGboost算法而言，特征缩放对于它们没有什么影响。

常用的特征缩放算法有两种，归一化(normalization)和标准化(standardization)。归一化算法是通过特征的最大最小值将特征缩放到[0,1]区间范围

归一化(Normalization)

归一化是利用特征的最大最小值，为了方便数据处理，将特征的值缩放到[0,1]区间，对于每一列的特征使用min-max函数进行缩放，可以使处理过程更加便捷、快速，计算。

特征归一化的优势

提升收敛速度：对于线性model来说，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

造成图像的等高线为类似椭圆形状，最优解的寻优过程图像如下：

两个特征区别相差特别大。所形成的等高线比较尖锐。当时用梯度下降法时，很可能要垂直等高线走，需要很多次迭代才能收敛。

而数据归一化之后，损失函数的表达式可以表示为：

其中变量的前面系数几乎一样，则图像的等高线为类似圆形形状，最优解的寻优过程图像如下：

对两个原始特征进行了归一化处理，其对应的等高线相对来说比较圆，在梯度下降时，可以较快的收敛。

提升模型精度：如果我们选用的距离度量为欧式距离，如果数据预先没有经过归一化，那么那些绝对值大的features在欧式距离计算的时候起了决定性作用。从经验上说，归一化是让不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。

特征归一化方法MinMaxScaler

from sklearn.preprocessing import MinMaxScaler
x=[[10001,2],[16020,4],[12008,6],[13131,8]]
min_max_scaler = MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(x)#归一化后的结果
X_train_minmax

# 它默认将每种特征的值都归一化到[0，1]之间

MinMaxScaler的实现

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

这是向量化的表达方式，说明X是矩阵，其中

X_std：将X归一化到[0，1]之间
X.min(axis=0)表示列最小值
max，min表示MinMaxScaler的参数feature_range参数。即最终结果的大小范围
以下例说明计算过程（max=1，min=0）

最低0.47元/天解锁文章