特征选择技术:PCA与t - SNE详解
在数据分析和机器学习领域,特征选择技术至关重要,它能够帮助我们从高维数据中提取有用信息,降低数据维度,提高模型性能。本文将详细介绍两种常用的特征选择技术:主成分分析(PCA)和t - 分布随机邻域嵌入(t - SNE)。
1. 数据矩的计算
在深入了解特征选择技术之前,我们先来看一下如何计算数据的矩。矩是描述数据分布特征的重要统计量,常见的有均值、方差、偏度和峰度。以下是使用Python计算这些矩的代码示例:
import numpy as np
import scipy.stats as sp
# 假设vals是我们的数据
vals = [...]
# 计算均值(一阶矩)
mean = np.mean(vals)
# 计算方差(二阶矩)
variance = np.var(vals)
# 计算偏度(三阶矩)
skew = sp.skew(vals)
# 计算峰度(四阶矩)
kurtosis = sp.kurtosis(vals)
2. 主成分分析(PCA)
主成分分析(PCA)是一种著名的特征提取方法,它通过将原始特征组合成新的独立特征,保留最能预测目标输出的特征,从而实现数据降维和信息提取。
2.1 PCA的优缺点
- 优点 :
- 速度快,易于使用。
- 能够吸收数据的全局方差。
- 广泛应用于探索性数据分析(EDA)和机器学习预测模