维度降低技术详解
1. 主成分分析(PCA)基础
主成分分析(PCA)是一种广泛使用的维度降低技术,它可以帮助我们找到数据中的主要成分,从而减少数据的维度。在PCA中,每个主成分都有其对应的解释方差比例,通过 explained_variance_ratio_ 变量可以获取这一信息。例如,对于一个3D数据集,前两个主成分的解释方差比例可能如下:
>>> pca.explained_variance_ratio_
array([0.84248607, 0.14631839])
这表明84.2%的数据集方差位于第一个轴上,14.6%位于第二个轴上,而第三个轴的方差不到1.2%,可以认为它携带的信息较少。
1.1 选择合适的维度
通常,我们不建议随意选择要降低到的维度,而是选择能够保留足够大数据集方差的维度数量,例如保留95%的方差。除非是为了数据可视化,这种情况下通常将维度降低到2或3。
以下是计算保留95%训练集方差所需的最小维度数的代码:
import numpy as np
from sklearn.decomposition import PCA
pca = PCA()
pca.fit(X_train)
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1
超级会员免费看
订阅专栏 解锁全文
1311

被折叠的 条评论
为什么被折叠?



