第三讲 KNN-优快云博客

本文链接：https://blog.youkuaiyun.com/lecy211xfd/article/details/133030230

学习目标
1、分类问题
2、距离度量
3、KNN算法
4、在分类任务中的应用
5、在回归分析中的应用

分类问题

分类，也就是找一个函数来判断数据属于什么

比如

二分类：是\不是什么的问题

又比如

多分类：判断数据属于哪个类别（类别一、类别二......)

距离度量

(1)欧氏距离(Euclidean distance)

是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离。

(2)曼哈顿距离(Manhattan distance)

顾名思义，在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

(3)切比雪夫距离(Chebyshev distance)

国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？你会发现最少步数总是max(| x2-x1| , |y2-y1| ) 步。这种类似的一种距离度量方法就叫切比雪夫距离(L∞范数)。

(4)闵可夫斯基距离(Minkowski distance)

基于闵氏空间提出，是一个更广泛意义的距离：

p=1时则为曼哈顿距离

p=2即为欧氏距离

p取无穷时的极限情况下，得到切比雪夫距离

(5)汉明距离(Hamming distance)

(6)余弦相似度(Cosine Similarity)

以上部分引用自机器学习——各种距离度量方法总结_机器学习距离度量_QxwOnly的博客-优快云博客https://blog.youkuaiyun.com/qs17809259715/article/details/96110056

K最近邻(k-Nearest Neighbor，KNN)分类算法

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager learning）相对应。

算法思想：近朱者赤近墨者黑

是一种非参数、惰性学习方法：

( 1) 不是用一组固定参数来描述，参数的个数随着训练数据的增加而增长；

( 2) 不是说它看上去简单，而是在于它不是从训练数据中学习差别函数，而是靠记忆训练过的数据集来完成任务。

下图引用自 KNN算法：近朱者赤近墨者黑（一）_knn算法:近朱者赤,近墨者黑_大数据老张的博客-优快云博客

在分类任务中的应用

在回归分析中的应用

sklearn中的make_regression生成回归样本数据

格式：make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

sklearn中的K近邻回归分析器

sklearn.neighbors.KNeighborsRegressor ()

格式：KNeighborsRegressor(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)