数据降维技术:PCA、LDA与KPCA详解
1. 主成分分析(PCA)
PCA是一种无监督的线性变换技术,旨在找到数据集中方差最大的正交分量轴。以下是使用Python和 scikit-learn 库实现PCA的详细步骤。
1.1 数据可视化
首先,我们可以通过以下代码对经过PCA降维后的数据进行可视化:
import numpy as np
import matplotlib.pyplot as plt
colors = ['r', 'b', 'g']
markers = ['s', 'x', 'o']
for l, c, m in zip(np.unique(y_train), colors, markers):
plt.scatter(X_train_pca[y_train==l, 0],
X_train_pca[y_train==l, 1],
c=c, label=l, marker=m)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
plt.show()
从可视化结果可以看出,数据在第一个主成分(x轴)上的分布比第二个主成分(y轴)更分散,这与之前计算的解释方差比图一致。同时,线性分类器很可能能够很好地分离这些类别。
超级会员免费看
订阅专栏 解锁全文
763

被折叠的 条评论
为什么被折叠?



