特征工程-降维

最新推荐文章于 2024-02-20 17:08:04 发布

原创

最新推荐文章于 2024-02-20 17:08:04 发布 · 1.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #特征工程 #降维

本文探讨了机器学习中降维的重要性及方法，包括特征选择与特征提取两大类。文中详细介绍了主成分分析（PCA）、线性判别式分析（LDA）、多维标度法（MDS）等降维技术，并讨论了降维对于提高模型性能和减少过拟合风险的作用。

降维

我们发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。我们通过对问题本身的理解，小心谨慎的构造出一些特征，希望机器学习算法可以采纳。本次分享走相反的路线，降维—把无关或冗余的特征删掉。

降维的原因：

多余的特征会影响或误导学习器。并不是所有的机器学习方法都有这种情况（例如，支持向量机就喜欢高维空间），但大多数模型在维度较小的情况下比较安全。
另一个反对高维特征空间的理由是，更多特征意味着更多参数需要调整，过拟合的风险也越大。
我们用来解决问题的数据的维度可能只是虚高，真实维度可能比较小。
维度越少意味着训练越快，更多东西可以尝试，能够得到更好的结果。
如果我们想要可视化数据，就必须限制在两个或三个维度上；这就是所谓的数据可视化。

降维的目标：

对输入的数目进行削减，由此剔除数据中的噪声并提高机器学习方法的性能。

降维方法

大致分为特征选择法和特征提取法。

我们将展示利用统计方法（叫做相关性和互信息量）在大特征空间中进行特征选择的方式。
特征抽取试图将原始特征空间转换为一个低维特征空间。我们将使用主成分分析（principal Component Analysis, PCA）、线性判别式分析（Linear Discriminant Analysis, LDA）和多维标度法（Multidimensional Scaling, MDS）。

主成分分析

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。