KNN

最新推荐文章于 2025-06-03 21:41:00 发布

yuzaer

最新推荐文章于 2025-06-03 21:41:00 发布

阅读量285

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_37920823/article/details/90027910

标称属性
- 属性值匹配
- 属性值不匹配
- $0 - 1$ 函数
序数属性
- 可以考虑量化序数属性
- $\frac{|p-q|}{n-1}$
区间或者比率属性
- 属性值差的绝对值
- 属性值比率
- $d = ∣ p - q ∣$
- $\frac{1}{1+d},s = 1 - \frac{d - \min d}{\max d - \min d}$

$x_a = (x_{a1},...,x_{an}),x_b = (x_{b1},...,x_{bn})$

$\Rightarrow d(a,b) = \sqrt{(x_{a1} - x_{b1})^2+...+(x_{an} - x_{bn})^2}$

$d(a,b) = |x_{a1}-x_{b1}|+...+|x_{an}-x_{bn}|$

普通的闵可夫斯基距离
$(|x_{a1}-x_{b1}|^p+...+|x_{an}-x_{bn}|^p)^{\frac{1}{p}}$
其中 $p$ 为一个整数
加权闵可夫斯基距离
$(w_1|x_{a1}-x_{b1}|^p+...+w_n|x_{an}-x_{bn}|^p)^{\frac{1}{p}}$
其中 $p$ 为一个整数

可以发现，欧氏距离以及曼哈顿距离都是闵可夫斯基距离的一个特例

$(a-b)\Sigma^{-1}(a-b)^T$
其中 $\Sigma$ 是数据的协方差矩阵
$\Sigma_{j,k} = \frac{1}{n-1}\sum_{i=1}^n(X_{ij} - \bar X_j)(X_{ik} - \bar X_k)$

相当于引入了对方向上的方差进行惩罚的机制。

在这里插入图片描述

集合
- $d (A, B) = s i z e (A - B)$
- $d (A, B) = s i z e (A - B) + s i z e (B - A)$
时间
- $d(t_1,t_2) = \begin{Bmatrix}
  t_2-t_1 & 如果 t_1 \leq t_2 \
  24+(t_2 - t_1) & 如果t_1 \geq t_2
  \end{Bmatrix} $
简单匹配系数 $(Simple\ Matching\ Coefficent)$
- SMC = $\frac{number\ of\ matches}{number\ of\ attributes} = \frac{M_{11} + M_{00}}{M_{11} + M_{00}+M_{10} + M_{01}}$
$Jaccard\ Coefficent$
- $\frac{M_{11}}{M_{11} + M_{00}+M_{10} + M_{01}}$

$\frac{a·b}{||a||*||b||}$

增加代表点的数量会使分类器效果增加吗？
将所有样本作为代表点。新样本与哪 $k$ 个代表点最相似就基于投票多数类别决策。
- $arg\max\limits_y\sum_{(x_i,y_i)\in D_k}I(v = y_i)$
通过对每一个最近邻的距离进行加权
- $arg\max\limits_y\sum_{(x_i,y_i)\in D_k}w_i*I(v = y_i)$
- $w_i = \frac{1}{d(x',x_i)^2}$

对于 $k$ 值大小的讨论

尺度变换非常重要

构造过程

构造根节点，选择 $x_1$ 为坐标轴，以样本在这个维度上的中位数进行划分，切分方向垂直于坐标轴。在根节点处保存对应的实例
对于深度为 $j$ 的节点，选择 $x_l,l = j(mod k) +1$ 作为坐标轴，以该节点中的样本在维度上的中位数进行划分；在节点处保存实例。重复直至划分后的区域没有样本。

搜索过程

首先找到包含目标点的叶结点作为当前最近点：兄根节点出发，递归向下访问，每一次访问比较对应维度的大小，进入左节点或者右节点。
从叶节点出发回退
- 如果当前节点保存的样本距离比当前最近点的距离还小，则更新当前最近点。
- 当前最近点一定存在于该节点的某个子节点的区域，所以检查该节点的父节点的另一子节点的区域中是否有更近的点
- 如果有，则移动到另一个节点。递归进行搜索
- 如果没有，向上回退，递归搜索。
回退至根节点时，搜索结束。返回当前最近点。