降维方法的优缺点

本文探讨了机器学习中的降维方法,包括特征选择(如方差阈值、相关性阈值、遗传算法)和特征提取(如PCA、LDA、自动编码机)。特征选择保留特征子集,而特征提取创建新特征。PCA和LDA是常用的无监督降维技术,遗传算法适用于高维数据集,而自动编码机适用于处理图像和音频数据。降维有助于避免维度灾难,提高模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:https://elitedatascience.com/dimensionality-reduction-algorithms

欢迎阅读我们的现代机器学习算法的第2部分。 在这一部分中,我们将介绍降维的方法,进一步分为特征选择和特征提取。 通常,这些任务很少单独执行。 相反,他们通常都是数据预处理中的步骤。

 

如果你错过了第1部分,你可以在这里查看。 它解释了我们的对机器学习算法的分类方式,它涵盖了“三大”机器学习任务:

  1. 回归任务
  2. 分类任务
  3. 聚类任务

 

在这篇文章,我们将介绍:

  1. 特征选择
  2. 特征提取

 

我们还将在未来的专用指南中介绍其他任务,如密度估算和异常检测。

 

维度灾难

在机器学习中,“维度”仅指数据集中的特征(即输入变量)的数量。

 

当特征数量相对于数据集中的观测样本非常大时,某些算法很难训练有效的模型。 这被称为“维度灾难”,它尤其适用于依赖于距离计算的聚类算法。

 

 

一个Quora用户为维度诅咒提供了一个很好的类比,我们将在这里借用:

“假设你有一条100码长的直线,你在它的某处丢了一分钱。 找到它并不难。 沿着这条线走,需要两分钟。

如果每边都有一个100码的方形,你在它的某处丢了一分钱。 这将是相当困难的,就像搜索两个足球场粘在一起。 这可能需要数天时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值