降维与度量学习笔记

最新推荐文章于 2023-12-31 10:40:42 发布

happy1yao

最新推荐文章于 2023-12-31 10:40:42 发布

阅读量406

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_41940752/article/details/95160717

本文详细介绍了降维与度量学习的概念和方法，包括k近邻算法、低维嵌入、主成分分析（PCA）、核化线性降维（如KPCA）、流形学习（如Isomap和LLE）以及度量学习。讨论了K值选择、距离度量、数据归一化在学习过程中的重要性，并阐述了如何通过学习来优化度量矩阵以提升分类性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. k近邻学习
k 近邻(k-Nearest Neighbor，简称 KNN)学习是一种常用的监督学习方法，
工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据及中前ｋ个最相似的数据，这就是k-近邻算法中k的出处，通常k选择不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

算法步骤：
1、计算测试对象到训练集中每个对象的距离
2、按照距离的远近排序
3、选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居
4、统计这k个邻居的类别频率，k个邻居里频率最高的类别，即为测试对象的类别

通常，在分类任务中可使用**“投票法”** 即选择这 k 个样本中出现最多的类别标记作为预测结果；在回归任务中时使用**“平均法”** ，即将这 k 个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。

K值选择
当 k 取不同值时，分类结果会有显著不同。
K值较小，则模型复杂度较高，容易发生过拟合，学习的估计误差会增大，预测结果对近邻的实例点非常敏感。K值较大可以减少学习的估计误差，但是学习的近似误差会增大，与输入实例较远的训练实例也会对预测起作用，使预测发生错误，k值增大模型的复杂度会下降。
在应用中，k值一般取一个比较小的值，那么K值到底怎么选取呢？有人用Cross Validation(比较常用），有人用贝叶斯，还有的用bootstrap。

距离度量
另一方面，若采用不