降维/嵌入 ---非监督学习
原始的高维映射到地维空间
降维方法:维度选择、维度抽选
维度选择:选择已有维度的一个子集 (D维 ->K维)
-
JL定理:D维 近似等距的嵌入 K维
优点:简单、流行,有比较好的泛化性能
缺点:没有精度保证
- 手工移除特征:冗余的、不相关的、质量差的
监督方法:过滤式选择、包裹式选择、嵌入式选择
- 过滤式选择
设计一个相关统计量(单个特征与标签之间的相关系数。互信息)来度量特征的重要性
优点:根据单个特征和目标之间的统计分值选择特征值,速度快
缺点:没考虑特征间的关系
- 包裹式选择
用最终的学习器性能评价特征的重要性
前向:从0开始一遍