-
学习目标
- 1、分类问题
- 2、距离度量
- 3、KNN算法
- 4、在分类任务中的应用
- 5、在回归分析中的应用
分类问题
分类,也就是找一个函数来判断数据属于什么
比如
二分类:是\不是 什么的问题
又比如
多分类:判断数据属于哪个类别(类别一、类别二......)
距离度量
(1)欧氏距离(Euclidean distance)
是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离。
(2)曼哈顿距离(Manhattan distance)
顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。
(3)切比雪夫距离(Chebyshev distance)
国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?你会发现最少步数总是max(| x2-x1| , |y2-y1| ) 步。这种类似的一种距离度量方法就叫切比雪夫距离(L∞范数)。
(4)闵可夫斯基距离(Minkowski distance)
基于闵氏空间提出,是一个更广泛意义的距离:

(5)汉明距离(Hamming distance)
(6)余弦相似度(Cosine Similarity)
K最近邻(k-Nearest Neighbor,KNN)分类算法
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说没有训练阶段,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。与急切学习(eager learning)相对应。
算法思想:近朱者赤近墨者黑
是一种非参数、惰性学习方法:
在分类任务中的应用
在回归分析中的应用
格式:make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
sklearn.neighbors.KNeighborsRegressor ()
格式:KNeighborsRegressor(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)