《统计学习方法》（第三章）—— K邻近

最新推荐文章于 2024-04-22 15:41:31 发布

原创最新推荐文章于 2024-04-22 15:41:31 发布 · 339 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了K邻近算法，其通过在训练集中找与新实例最邻近的K个实例来分类。还阐述了K邻近模型，涉及距离度量、K值选择和分类决策规则。此外，讲解了KD树的构造与搜索算法，构造时按坐标轴中位数划分，搜索时递归定位最近点。

K邻近算法

定义:给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为这个类。
算法：
输入：训练数据集：
$T=\{(x_1,y_1),(x_2,y_2),....,(x_N,y_N)\}$ 其中 $xi∈χ⊆Rnx_i \in\chi\subseteq R^n$ ，为实例的特征向量， $yi∈γ={c1,c2,...,ck}y_i \in\gamma=\{c_1,c_2,...,c_k\}$ 为实例的类别， $i = 1, 2, . . . ., N;$ 实例特征向量 $x$ ;
输出：实例 $x$ 所属类别 $y$
- $(1)$ 根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这个 $k$ 个点的 $x$ 的邻域记作 $N_k(x);$
- $(2)$ 在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y;$
  $y=argmaxcj∑xi∈Nk(x)I(yi=cj)y=argmax_{c_j}\sum\limits_{x_i \in N_k(x)}I(y_i=c_j)$ $i = 1, 2, . . . ., N; j = 1, 2, . . ., K$
  $I$ 为指示函数，如果条件成立则是 $1$ ，否则是 $0$ , $K = 1$ 称为最邻近， $K$ 邻近没有显式的学习过程

K邻近模型

模型
训练集，距离度量， $k$ 值和分类决策规则确定后，就可以对任何一个新的输入实例进行预测
距离度量
- $Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣)1pL_p(x_i,x_j)=(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|)^{\frac{1}{p}}$
- $p = 2$ 时为欧式距离
- $p = 1$ 时为曼哈顿距离
- $p=∞p=\infty$ 时 $L∞(xi,xj)=max⁡l∣xi(l)−xj(l)∣L_\infty(x_i,x_j)=\max_l|x_i^{(l)}-x_j^{(l)}|$
K值的选择
- K值大则模型简单，近似误差大，估计误差小
- K值小则模型复杂，近似误差小，估计误差大
分类决策规则
- 多数表示规则：
  如果分类的损失函数为 $0 - 1$ 损失函数,分类函数 $f:Rn→{c1,c2,...,ck}f:R^n\to\{c_1,c_2,...,c_k\}$ 那么误分类的概率是
  $\neq {f(X)})=1-P(Y=f(X))$ 对给定区域经验损失函数
  $Loss=1k∑xi∈Nk(x)I(yi≠ci)=1−1k∑xi∈Nk(x)I(yi=ci)Loss=\Large\frac{1}{k}\normalsize\sum\limits_{x_i \in N_k(x)}I(y_i\ne c_i)=1-\Large\frac{1}{k}\normalsize\sum\limits_{x_i \in N_k(x)}I(y_i=c_i)$
  要使 $L o s s$ 最小，就要使 $∑xi∈Nk(x)I(yi=ci)\sum\limits_{x_i \in N_k(x)}I(y_i=c_i)$ ,最大，所以得证

KD树

构造KD树
- 算法：
  输入： $k$ 维空间数据集合 $T=\{(x_1,y_1),(x_2,y_2),....,(x_N,y_N)\}$ ,其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(k)})^T$
  $i = 1, 2, . . ., N;$
  输出： $k d$ 树
  - $(1)$ 开始，构造根节点，根节点对应于包含 $T$ 的 $k$ 维空间的超矩形区域，选择 $x^{(1)}$ 为坐标轴，以 $T$ 中的所以实例对 $x^{(1)}$ 为中位数，分类左右两个子集，左子集小于 $x^{(1)}$ ,右子集大于 $x^{(1)}$ ，等于 $x^{(1)}$ 则存在根节点，形成一个二叉树结构
  - $(2)$ 重复:以上一次划分为起点，设上一次划分为 $j$ 维，则重新选 $j=j(modk)+1,j=j\pmod{k}+1,$ 重新按照 $(1)$ 进行操作
  - $(3)$ 直到两个子区域没有实例存在时停止。从而形成 $k d$ 树
KD树的搜索：
- 算法：
  输入：测试点 $(x, y)$
  输出：类别
  - $(1)$ 按照最初划分规则递归的寻找包含测试点的最小子区域，先把它定位最近点
  - $(2)$ 返回父亲节点，如果此时选中节点集合个数小于 $k$ ，则加入父亲节点，如果选中节点集合个数还小于 $k$ 则加入另一个子节点,如果等于 $k$ 则判断里面最远点和要加入点的距离，如小于最远点的化则更新，选择点的集合，同时如果最远集合的点的圆与子节点区域相交，也需要去判断一下。
  - $(3)$ 直到所有递归完成，最后集合里面就是k个最近的点，根据决策规则进行统计答案输出
    我们这里集合可以用优先队列来维护

课后实现