近邻算法与指纹分类技术详解
1. 引言
k - 近邻(k - NN)算法不仅可用于解决模式识别等多类分类问题,在处理回归问题时,其预测基于 k 个最相似实例的均值或中位数。
2. 近邻回归
在近邻回归中,标签并非类别,而是实数值或离散值。假设有训练集 ${(x_i, y_i)}$,其中 $x_i$ 是第 $i$ 个数据点,$y_i$ 是相应的离散或实数值标签。近邻回归算法如下:
算法 6.1 近邻回归算法
1: 计算训练数据集中每个样本 $x_i$ 到测试数据 $x$ 的距离 $d(x, x_i)$。
2: 从数据集中选择 $k$ 个实例 $x_{i_j}$($1 \leq j \leq k$),使得 $d(x, x_{i_j})$ 最小。设 $y_{i_1}, y_{i_2}, \ldots, y_{i_k}$ 为它们对应的标签。
3: 计算 $x$ 的标签 $y$ 为这 $k$ 个标签的均值,即 $y = \frac{1}{k} \sum_{j = 1}^{k} y_{i_j}$
3. k - NN 分类
在分类中,准确识别数据点周围的邻居至关重要。近邻算法是一种基于实例的机器学习方法。通常的 k - NN 搜索会考虑待分类数据样本附近的 k 个邻居,邻居的接近程度由距离度量确定。在高维空间中,这种计算效率较低,高维数据的一个主要问题是确定最近邻居或最接近的点。因此,需要通过基于球树或 KD 树等数据结构对样本进行排序来找到 k 个最接近的邻居,以提高性能。这些算法主要旨在减少计算数据集中样本间距离所需的计算量。
超级会员免费看
订阅专栏 解锁全文
515

被折叠的 条评论
为什么被折叠?



