吃瓜笔记---第十章降维与度量学习

最新推荐文章于 2025-12-13 20:17:14 发布

原创最新推荐文章于 2025-12-13 20:17:14 发布 · 364 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #算法 #人工智能

本文介绍了k近邻(KNN)算法的基本原理，包括其分类决策过程，并着重讨论了在高维空间中遇到的‘维数灾难’问题，即随着维度增加，数据稀疏和计算复杂性显著上升。为了解决这一问题，文章提出了降维技术的重要性，特别是多维缩放(MDS)作为缓解维数灾难的一种手段，以保持样本间的距离不变。通过降维，可以改善高维数据的学习和预测性能。

1 k近邻学习

k近邻（k-Nearest Neighbor 简称KNN）是一种常见的监督学习方法。

1.1 算法描述

输入：训练数据集

$T={(x_1,y_1),(x_2,y_2),.....,(x_N,y_N))}$ $x_i$ 为实例的n维特征向量， $y_i$ 为实例的类别，维度为K

输出：实例x所属的类别y

(1)根据给定的距离度量，在训练集T中找出与x最近的k个点，涵盖这k个点的x的领域记作 $N_k(x)$ ;

(2)在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定x的类别y；

$y=\underset{c_j}{argmax}\sum_{x_i\in N_k(x)}^{}I(y_i=c_j), i=1,2,...,N; j=1,2,...,K$

其中I为指示函数，即y=c取1，不等取0。

1.2 最近邻可行性描述

2 维数灾难

上一节得出的最近邻的泛化误差是基于一个重要假设：任意测试样本x附近任意小的 $\delta$ 范围内总能找到一个训练样本，即训练样本的采样密度足够大。但是这个在现实中很难满足。如果 $\delta =0.001$ ，即在范围为1的长度内需要1000个样本点，这仅仅是样本维数为1的情况下，如果样本维数为20，则所需要的样本点为 $(1000)^{20}=10^{60}$ ,这是一个非常大的数字。同时，在高维情况下还会出现数据样本稀疏、距离计算困难等问题，这是所有机器学习方法共同面临的严重障碍——“维数灾难”（curse of dimensionality）

2.1 低维嵌入

缓解维数灾难的的一个重要途径就是降维（dimension reduction），即通过某种数学计算高维属性空间转变为一个低维“子空间”

若要求原始空间中样本之间的距离在低维空间中得以保持，如上图所示，即得到“多维缩放”(MDS)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。