降维技术全解析:从理论到实践
1. 引言
在分类或回归应用中,我们会将认为包含信息的观测数据作为输入,用于系统决策。然而,许多情况下,我们需要进行降维预处理,原因如下:
- 多数学习算法的复杂度与输入维度和数据样本大小有关,降维可减少内存和计算量,也能降低测试阶段推理算法的复杂度。
- 若判定某个输入不必要,可节省提取该输入的成本。
- 简单模型在小数据集上更具鲁棒性,方差更小。
- 用较少特征解释数据,有助于我们了解数据背后的过程,实现知识提取。
- 数据能用低维表示且不损失信息时,可进行可视化分析,发现结构和异常值。
降维主要有两种方法:
- 特征选择 :从d个维度中找出k个能提供最多信息的维度,舍弃其余(d - k)个维度。
- 特征提取 :找到一组新的k维,它们是原始d维的组合。这些方法可分为有监督和无监督,常见的特征提取方法有主成分分析(PCA)和线性判别分析(LDA)。
2. 子集选择
子集选择旨在找到特征集的最佳子集,该子集包含最少维度且对准确性贡献最大,舍弃其余不重要维度。可用于回归和分类问题,但由于d个变量有2d种可能子集,通常需用启发式方法在合理时间内得到近似解。
有两种主要方法:
- 顺序向前选择 :
1. 初始特征集F为空。
2. 对于每个可能的输入xi,在训练集上训练模型,并在验证集上计算E(F ∪ xi)。
3. 选择使误差最小的输入xj,即j = arg min i E(F ∪ xi)。
超级会员免费看
订阅专栏 解锁全文
1669

被折叠的 条评论
为什么被折叠?



