数据处理之特征缩放与编码

最新推荐文章于 2024-04-29 19:50:48 发布

原创

最新推荐文章于 2024-04-29 19:50:48 发布 · 2.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据处理 #特征工程 #python

目录

1、特征缩放

1.1.1 Min-Max Scaling

1.1.2 Z-Score Normalization

1.1.3 归一化总结

1.3 归一化与正则化比较

2、特征编码

2.1 类别数据处理

2.1.1 序号编码

2.1.2 独热编码(one-hot)

2.2 连续变量离散化

2.2.1 二值化

2.2.3 聚类划分

0、前言

数据处理之特征缩放和特征编码，特征缩放主要是归一化和正则化，用于消除量纲关系的影响，特征编码包括了序号编码、独热编码等，主要是处理类别型、文本型以及连续型特征。

1、特征缩放

特征缩放主要有两种方法：归一化和正则化。

1.1 归一化

归一化(Normalization)，也称为标准化，不仅仅是对特征，实际上对于原始数据也可以进行归一化处理，它是将特征（或者数据）都缩放到一个指定的大致相同的数值区间内。

归一化的两个原因：

某些算法要求样本数据或特征的数值具有零均值和单位方差；
为了消除样本数据或者特征之间的量纲影响，即消除数量级的影响。

1.1.1 Min-Max Scaling

它对原始数据进行线性变换，使得结果映射到[0,1]的范围，实现对原始数据的等比缩放，公式如下：

x* = (x-x.min)/(x.max-x.min)

其中 X 是原始数据，x.max,x.min分别表示数据最大值和最小值。

1.1.2 Z-Score Normalization

它会将原始数据映射到均值为 0，标准差为 1 的分布上。假设原始特征的均值是μ、标准差是σ，则公式如下：

x* = (x-μ)/σ

1.1.3 归一化总结

如果数据集分为训练集、验证集、测试集，那么三个数据集都采用相同的归一化参数，数值都是通过训练集计算得到，即上述两种方法中分别需要的数据最大值、最小值，方差和均值都是通过训练集计算得到

归一化不是万能的，实际应用中，通过梯度下降法求解的模型是需要归一化的，这包括线性回归、逻辑回归、支持向量机、神经网络等模型。但决策树模型不需要，以 C4.5 算法为例，决策树在分裂结点时候主要依据数据集 D 关于特征 x 的信息增益比，而信息增益比和特征是否经过归一化是无关的，归一化不会改变样本在特征 x 上的信息增益。

1.2 正则化

正则化是将样本或者特征的某个范数（如 L1、L2 范数）缩放到单位 1。

对样本首先计算 Lp 范数，正则化后的结果是：每个属性值除以其 Lp 范数

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。