目录
一.k-近邻算法简介
1.1KNN算法介绍
k-近邻算法采用测量不同特征值之间的距离方法进行分类
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
1.2算法原理
K近邻算法的核心思想是基于特征空间中相邻数据点具有相似性的假设。在分类任务中,KNN算法通过测量不同数据点之间的距离来确定新数据点的分类。具体步骤如下:
- 计算新数据点与训练集中所有数据点的距离。
- 根据距离找到与新数据点最近的K个邻居。
- 根据这K个邻居的类别,通过多数表决的方式确定新数据点的类别。
1.3距离的计算
对于给定的新样本,计算它与训练数据集中所有样本的距离,常用的距离度量包括
- 欧氏距离
2.曼哈顿距离