机器学习----数据准备&特征工程(2)

本文介绍了数据降维的重要性和几种常用方法,如PCA、LDA及ISOMAP,并探讨了数据选择与降维的区别,提供了特征选择的方法及重要性评估的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据降维

这里写图片描述

原理,就是采用映射的方法,把高维准换成低维的
降维可能准确度会下降,但是避免了过拟合的现象
可以增加样本个数
这里写图片描述


常用的降维的方法
这里写图片描述

1.1 PCA解释及计算步骤

通过某种线性投影,将高维的数据映射到低维的空间中表示,使得方差最大,适用较少的数据维度,尽量保留住较多的数据

步骤
1,各个数据集减去各数据的均值
这里写图片描述

2求特征变量的协方差矩阵
这里写图片描述

3求协方差的特征值和特征向量

这里写图片描述

**4.排序取值
这里写图片描述

5.投影映射
这里写图片描述**

代码如下

# -*- coding: utf-8 -*-
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"
from  sklearn import datasets
#数据收集
iris = datasets.load_iris()
x=iris.data
y=iris.target
#PCA降维
from sklearn.decomposition import PCA
'''
sklearn.decomposition.PCA(n_components=None,copy = True,whiten=Flase)
n_components:主成分个数
copy:训练时是否复制一份,默认是True
whiten:白化,似的每个特征具有相同的方差
'''
#定义一个PCA模型
pca = PCA(n_components=3)
#fit聚合
pca.fit()
#transform
x_new = pca.fit_transform(x)
print(pca.explained_variance_ratio_)
print(pca.explained_variance_)
####可视化
pca = PCA(n_components=2)
pca.fit(x)
x_new2 = pca.transform(x)
import matplotlib.pyplot as plt
%matplotlib inline
plt.scatter(x_new2[:,0],x_new2[:,1],marker="o",c=y)
plt.show()

1.2线性判别分析(LDA)

原理
这里写图片描述

PCA和LDA的区别
这里写图片描述
这里写图片描述
这里写图片描述

代码和PCA类似

1.3流行学习方法(ISOMAP)

这里写图片描述

二、数据选择

2.1数据选择和降维的差异

这里写图片描述

2.2原因

这里写图片描述

2.3特征选择的方法

这里写图片描述

2.4单特征重要性评估

信息值(IV)
这里写图片描述

趋势分析
这里写图片描述

代码演示
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

总结

这里写图片描述

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值