机器学习特征选择和特征降维

最新推荐文章于 2025-04-04 09:29:25 发布

原创

最新推荐文章于 2025-04-04 09:29:25 发布 · 359 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

#降维，减少特征的数量
from sklearn.feature_selection import VarianceThreshold

# 特征的选择，1、特征减少，2、主成分分析PCA，特征上百个时候，就要考虑数据的简化
#
# # axis的重点在于方向，而不是行和列。1表示横轴，方向从左到右；0表示纵轴，方向从上到下。
#
# 特征选择，三个方法，过滤式，variance Threshold  embedded 嵌入式，正则化，决策树
# API：sklearn.feature_selection.VarianceThreshold
# VarianceThreshold 删除所有低方差特征
# Variance.fit_tansform(X,y) X为numpy array数据

# vaa=VarianceThreshold(threshold=2)
# data=vaa.fit_transform([[0, 2, 0, 3],[0, 1, 4, 3],[0, 1, 1, 3]])
# print(data)

# 主成分PCA方法，数据降维,特征过多，导致各个维度之间存在相关性
# API：sklearn.decomposition
# Y=PX，通过矩阵运算将数据降维
from sklearn.decomposition import PCA
pcc=PCA()
DATA=pcc.fit_transform([[2,8,4,5],
[6,3,0,8],
[5,4,9,1]]
)
print(DATA)

# 特征预处理
import sklearn.preprocessing

# 通过特定统计方法将数据转换成算法要求的数据
# 数值型数据：标准缩放，归一化，标准化，缺失值
# 类别型数据：one-hot编码
# 时间类型：时间的切分
#
# 归一化：通过对原始数据进行变换把数据映射到0-1之间
# 公式：X1=（x-min)/(max-min)