原文地址:https://elitedatascience.com/dimensionality-reduction-algorithms
欢迎阅读我们的现代机器学习算法的第2部分。 在这一部分中,我们将介绍降维的方法,进一步分为特征选择和特征提取。 通常,这些任务很少单独执行。 相反,他们通常都是数据预处理中的步骤。
如果你错过了第1部分,你可以在这里查看。 它解释了我们的对机器学习算法的分类方式,它涵盖了“三大”机器学习任务:
- 回归任务
- 分类任务
- 聚类任务
在这篇文章,我们将介绍:
- 特征选择
- 特征提取
我们还将在未来的专用指南中介绍其他任务,如密度估算和异常检测。
维度灾难
在机器学习中,“维度”仅指数据集中的特征(即输入变量)的数量。
当特征数量相对于数据集中的观测样本非常大时,某些算法很难训练有效的模型。 这被称为“维度灾难”,它尤其适用于依赖于距离计算的聚类算法。
一个Quora用户为维度诅咒提供了一个很好的类比,我们将在这里借用:
“假设你有一条100码长的直线,你在它的某处丢了一分钱。 找到它并不难。 沿着这条线走,需要两分钟。
如果每边都有一个100码的方形,你在它的某处丢了一分钱。 这将是相当困难的,就像搜索两个足球场粘在一起。 这可能需要数天时间。