特征工程-降维

本文探讨了机器学习中降维的重要性及方法,包括特征选择与特征提取两大类。文中详细介绍了主成分分析(PCA)、线性判别式分析(LDA)、多维标度法(MDS)等降维技术,并讨论了降维对于提高模型性能和减少过拟合风险的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

降维

我们发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。我们通过对问题本身的理解,小心谨慎的构造出一些特征,希望机器学习算法可以采纳。本次分享走相反的路线,降维—把无关或冗余的特征删掉。


降维的原因:

  • 多余的特征会影响或误导学习器。并不是所有的机器学习方法都有这种情况(例如,支持向量机就喜欢高维空间),但大多数模型在维度较小的情况下比较安全。
  • 另一个反对高维特征空间的理由是,更多特征意味着更多参数需要调整,过拟合的风险也越大。
  • 我们用来解决问题的数据的维度可能只是虚高,真实维度可能比较小。
  • 维度越少意味着训练越快,更多东西可以尝试,能够得到更好的结果。
  • 如果我们想要可视化数据,就必须限制在两个或三个维度上;这就是所谓的数据可视化。

降维的目标:

对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。


降维方法

大致分为特征选择法和特征提取法。

  • 我们将展示利用统计方法(叫做相关性和互信息量)在大特征空间中进行特征选择的方式。

  • 特征抽取试图将原始特征空间转换为一个低维特征空间。我们将使用主成分分析(principal Component Analysis, PCA)、线性判别式分析(Linear Discriminant Analysis, LDA) 和多维标度法(Multidimensional Scaling, MDS)。


主成分分析

按照数据方差最大方向调整数据。

奇异值分解

矩阵分解技术中的一种, 通过对原始数据的逼近来达到降维的目的。

本博文内容参考《Building Machine Learning Systems with Python》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值