《 Python 机器学习专题手册》笔记 3

本文详细介绍了Python机器学习中数据预处理的几种关键方法,包括特征缩放至(0,1)范围、特征归一化、特征二值化以及分类特征编码。特征缩放有助于提高模型的鲁棒性,归一化通过L1和L2范式调整特征比例,特征二值化利用先验知识优化概率估算,分类特征编码如one-hot编码则解决分类数据在模型中的使用问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据预处理的几种方法

import numpy as np
from sklearn import preprocessing

data = np.array([[ 3, -1.5,  2, -5.4],
                 [ 0,  4,  -0.3, 2.1],
                 [ 1,  3.3, -1.9, -4.3]])

# 去除均值
data_standardized = preprocessing.scale(data)
print( "\nMean =", data_standardized.mean(axis=0))
print( "Std deviation =", data_standardized.std(axis=0))

# 将特征缩放至特定范围内
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print( "\nMin max scaled data:\n", data_scaled)

# 归一化
data_normalized = preprocessing.normalize(data, norm='l1')
print( "\nL1 normalized data:\n", data_normalized)

# 特征二值化 
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print( "\nBinarized data:\n", data_binarized)

# 分类特征编码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print( "\nEncoded vector:\n", encoded_vector)

2. 将特征缩放至特定范围内
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print( "\nMin max scaled data:\n", data_scaled)
### 显示结果:
Min max scaled data:
 [[1.         0.         1.         0.        ]
 [0.         1.         0.41025641 1.        ]
 [0.33333333 0.87272727 0.         0.14666667]]

可见,处理后数据的特征值在(0,1)之间。

使用这种缩放的目的包括实现特征极小方差的鲁棒性以及在稀疏矩阵中保留零元素。

3.特征归一化
data_normalized = preprocessing.normalize(data, norm='l1')
print( "\nL1 normalized data:\n", data_normalized)

### 结果是:
L1 normalized data:
 [[ 0.25210084 -0.12605042  0.16806723 -0.45378151]
 [ 0.          0.625      -0.046875    0.328125  ]
 [ 0.0952381   0.31428571 -0.18095238 -0.40952381]]

归一化常见的用法之一,是以“L1范式”将数据的属性之和调整成 1。

根据有限的验算,“L2范式”与“L1范式”归一化的结果不同。

4. 特征二值化
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print( "\nBinarized data:\n", data_binarized)

### 结果是:
Binarized data:
 [[1. 0. 1. 0.]
 [0. 1. 0. 1.]
 [0. 1. 0. 0.]]

如果有这些数据的先验知识,特征二值化可以帮助概率估算。

5. 分类特征编码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print( "\nEncoded vector:\n", encoded_vector)

### 结果是:
Encoded vector:
 [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

在机器学习中,特征经常不是数值型的而是分类型的。举个例子,一个人可能有 ["male", "female"] , ["from Europe", "from US", "from Asia"] , ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"] 等分类的特征。这些特征能够被有效地编码成整数,比如 ["male", "from US", "uses Internet Explorer"] 可以被表示为 [0, 1, 3] , ["female", "from Asia", "uses Chrome"] 表示为 [1, 2, 1] 。

这个整数特征并不能在scikit-learn的估计器中直接使用,因为这样的连续输入,估计器会认为类别之间是有序的,但实际却是无序的。(例如:浏览器的类别数据则是任意排序的)
一种将分类特征转换为能够被scikit-learn中模型使用的编码是one-of-K或one-hot编码,在 OneHotEncoder 中实现。这个类使用 m 个可能值转换为 m 值化特征,将分类特征的每个元素转化为一个值。




























评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值