k近邻法学习笔记
一、概念
k近邻法(kNN)是一种基本的分类与回归的方法,通过选取与待分类的实例最相近的k个实例,将k个实例对应的类别中通过多数表决的方法进行预测,将其作为该实例的预测类标签。
当k = 1时,kNN算法也称为最近邻算法。
二、k近邻模型
k近邻模型主要由三部分组成:距离度量、k值大小、分类决策规则。
(1)距离度量
距离度量是衡量实例之间近似程度的一个标准,不同的距离度量标准下,实例之间的距离远近也不尽相同。下面简单介绍一下几种常见的距离度量的方法:
a.欧氏距离(Euclidean Distance)
欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
a-1.二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
a-2.三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:
a-3.两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离: