《统计学习方法》读书笔记第三章

最新推荐文章于 2025-06-24 21:11:53 发布

原创最新推荐文章于 2025-06-24 21:11:53 发布 · 418 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #读书笔记

《统计学习方法》李航读书笔记专栏收录该内容

5 篇文章

订阅专栏

本文介绍了k近邻算法的基本原理及应用，包括算法步骤、距离度量方式的选择、k值的确定方法等内容，并探讨了kd树在提高k近邻算法效率上的作用。

第三章 k近邻法

概述

　　它可以用来做分类和回归。
　　k近邻法不具有显式的学习过程。
　　k值的选择、距离度量以及分类决策规则是k近邻法的三个基本要素。

3.1 k近邻算法

　　算法简述：给定一个训练集，对于新进实例，在数据集中找出与其距离最近的k个实例，然后计算这k个实例将其划分为哪一类最多，就认为新进实例属于那一类。

算法 3.1（k近邻法）

　　输入：训练数据集
　　

T = {(x 1, y 1), (x 2, y 2), \dots (x N, y N)}

$T = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ({x_N},{y_N})\}$
　　其中，x为实例的特征向量，y为实例所属的类别，i = 1,2,3,…,N。
　　输出：实例x所属的类y。
　　（1）根据给定的距离度量，在训练集T中找到与x最近邻的k个点，涵盖这k个点的x的邻域记作

Nk(x) N k ( x ) ${N_k}(x)$ 。
　　（2）在

Nk(x) N k ( x ) ${N_k}(x)$ 中根据分类决策规则（如多数表决）决定x的类别y：
　　

y = arg max c j \sum x i \in N k (x) I (y i = c j), i = 1, 2, \dots, N; j = 1, 2, \dots, K

${\rm{y}} = \arg \mathop {\max }\limits_{{c_j}} \sum\limits_{{x_i} \in {N_k}(x)} {I({y_i} = {c_j}),i = 1,2, \cdots ,N;j = 1,2, \cdots ,K}$
　　其中，I为指示函数，当y=c时I为1，否则为0
　　 k近邻算法中的特殊情况是k=1，此时称为最近邻算法，计算与新进实例最近的点x，并把x的类作为新进实例的类。