降维与度量学习笔记

本文详细介绍了降维与度量学习的概念和方法,包括k近邻算法、低维嵌入、主成分分析(PCA)、核化线性降维(如KPCA)、流形学习(如Isomap和LLE)以及度量学习。讨论了K值选择、距离度量、数据归一化在学习过程中的重要性,并阐述了如何通过学习来优化度量矩阵以提升分类性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. k近邻学习
k 近邻(k-Nearest Neighbor,简称 KNN)学习是一种常用的监督学习方法,
工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据及中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k选择不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

算法步骤
1、计算测试对象到训练集中每个对象的距离
2、按照距离的远近排序
3、选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居
4、统计这k个邻居的类别频率,k个邻居里频率最高的类别,即为测试对象的类别

通常,在分类任务中可使用**“投票法”** 即选择这 k 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用**“平均法”** ,即将这 k 个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。

K值选择
当 k 取不同值时,分类结果会有显著不同。
K值较小,则模型复杂度较高,容易发生过拟合,学习的估计误差会增大,预测结果对近邻的实例点非常敏感。K值较大可以减少学习的估计误差,但是学习的近似误差会增大,与输入实例较远的训练实例也会对预测起作用,使预测发生错误,k值增大模型的复杂度会下降。
在应用中,k值一般取一个比较小的值,那么K值到底怎么选取呢?有人用Cross Validation(比较常用),有人用贝叶斯,还有的用bootstrap。

距离度量
另一方面,若采用不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值