机器学习-特征降维-优快云博客

本文链接：https://blog.youkuaiyun.com/h15366059/article/details/141001387

特征降维

特征降维
- 1. 简介
- 2. 常用方法

特征降维

1. 简介

"""
原因
	用于训练的数据集包含一些不重要的特征, 可能导致模型泛化性能不佳
目的
	在某些限定条件下,降低特征个数
"""

2. 常用方法

"""
常用方法: 
	1 .低方差过滤法
		指删除方差低于某些阈值的一些特征
		特征方差小:
			特征值的波动范围小, 包含的信息少, 模型学习的信息少
		特征方差大:
			特征值的波动范围大, 包含的信息相对丰富, 便于模型进行学习
		API
			sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
				实例化对象用于删除所有低方差特征
			variance_obj.fit_transform(X)
				X:numpy array格式的数据[n_samples,n_features]
				返回值：训练集差异低于threshold的特征将被删除
				默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征
	2. PCA(主成分分析) 降维法
		PCA 通过对数据维数进行压缩，尽可能降低原数据的维数(复杂度)
		损失少量信息，在此过程中可能会舍弃原有数据、创造新的变量
		API
			sklearn.decomposition.PCA(n_components=None)
				将数据分解为较低维数空间
			n_components: 小数表示保留百分之多少的信息；整数表示减少到多少特征 eg：由20个特征减少到10个
			mypcaobj.fit_transform(X)
				返回值：转换后指定维度的array
	3. 相关系数(皮尔逊相关系数, 斯皮尔曼相关系数)
		引用原因
			相关系数：反映特征列之间（变量之间）密切相关程度的统计指标
			常见2个相关系数：皮尔逊相关系数、斯皮尔曼相关系数
		性质
			当 r > 0 时，表示两变量正相关，r < 0 时，两变量为负相关
			当 |r| = 1 时，表示两变量为完全相关，当r = 0时，表示两变量间无相关关系
			当 0 < |r| < 1时，表示两变量存在一定程度的相关 且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
		相关度划分
			|r| <0.4为低度相关
			0.4≤ |r| <0.7为显著性相关
			0.7 ≤ |r| <1为高度线性相关
		皮尔逊相关系数
			
		斯皮尔曼相关系数
			
			n为等级个数，d为成对变量的等级差数
"""
# 1.导入依赖包
from