全面解读机器学习之k-近邻算法

最新推荐文章于 2024-11-23 13:44:29 发布

原创

最新推荐文章于 2024-11-23 13:44:29 发布 · 783 阅读

2 ·

CC 4.0 BY-SA版权

本文全面解析k-近邻(k-NN)算法，包括算法原理、优缺点和适用场景。通过实例介绍了如何使用Python实现k-NN算法，并应用于约会网站的配对效果改进和手写数字识别系统，探讨了算法的效率问题和优化方案。

一、k-近邻算法概述

k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点： 精度高、对异常值不敏感、无数据输入假定。缺点： 计算复杂度高、空间复杂度高。适用数据范围： 数值型和标称型。

工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

k-近邻算法的一般流程：

收集数据：可以使用任何方法。
准备数据：距离计算所需要的数值，最好是结构化的数据格式。
分析数据：可以使用任何方法。
训练算法：此步骤不适用于k-近邻算法。
测试算法：计算错误率。
使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

1. 准备：使用Python导入数据

创建名为kNN.py的Python模块：

from numpy import * # 导入科学计算模块
import operator # 导入运算符模块

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

'''
>>> group
array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])
>>> labels
['A', 'A', 'B', 'B']
>>>
'''

2. 实施kNN算法

该函数的功能是使用k-近邻算法将每组数据划分到某个类中，其伪代码如下，对未知类别属性的数据集中的每个点依次执行以下操作：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类。

# 四个参数是：用于分类的输入向量； 输入的训练样本集； 标签向量； k表示用于选择的最近邻的数目
def classify0(inX, dataSet, labeles, k):
    # shape[0]读取矩阵的第一维度长度， shape[1]读取二维数组每个元素中的格个数
    dataSetSize = dataSet.shape[0] # 读取dataSet样本集的个数
    # tile(inX, (dataSetSize, 1))将向量inX扩大 dataSetSize * 1 倍
    # 目的是与数据集中的每个样本相减求欧氏距离
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2 # 求矩阵中每个元素的平方
    sqDistances = sqDiffMat.sum(axis = 1) # 求平方和
    distances = sqDistances ** 0.5 # 欧式距离计算所有点的距离
    # argsort 返回distances按照从小到大排序的下标
    sortedDistIndicies = distances.argsort()
    # 定义字典 相当于C++中的map
    classCount = {
   
   }
    for i in range(k): # 确定前k个主要分类
        voteIlabel = labeles[sortedDistIndicies[i]] # 返回第i个标签值
        # 统计k个样本中的voteIlabel的个数 本题目 A : 1, B : 2
        # get()函数 取key相对应的value， 不存在就赋值为0
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    # items()方法把字典中每对key和value组成一个元组，并把这些元组放在列表中返回。
    # 将classCount转化为元组，按照逆序 从大到小排序
    # key = operator.itemgetter(1) 以第二维的数据为准进行排序
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
    # 返回k个样本中标签分类中最多的分类标签
    return sortedClassCount[0][0]

# 举个例子
print(classify0([1, 0], group, labels, 3)) # B

对上述代码做实验运行结果：

diffMat = np.tile([1,0], (dataSetSize, 1)) - dataSet
'''
array([[ 0. , -1.1],
       [ 0. , -1. ],
       [ 1. ,  0. ],
       [ 1. , -0.1]])
'''
sqDiffMat = diffMat ** 2
'''
array([[ 0.  ,  1.21],
       [ 0.  ,  1.  ],
       [ 1.  ,  0.  ],
       [ 1.  ,  0.01]])
'''
sqDistances = sqDiffMat.sum(axis = 1)
'''
 array([ 1.21,  1.  ,  1.  ,  1.01])
'''
distances = sqDistances ** 0.5
'''
array([ 1.1       ,  1.        ,  1.        ,  1.00498756])
'''
sortedDistIndicies = distances.argsort()
'''
array([1, 2, 3, 0], dtype=int64)
'''
b = sorted(a.items(), key = operator.itemgetter(1), reverse = True)
'''
[('B', 2), ('A', 1)]
'''

二、使用k-近邻算法改进约会网站的配对效果

海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息，她认为这些数据更有助于匹配对象的归类。

存在三种人：

不喜欢的人
魅力一般的人
极具魅力的人

算法流程：

收集数据：提供文本文件。
准备数据：使用Python解析文本文件。
分析数据：使用Matplotlib画二维扩散图。
训练算法：此步骤不适用于k-近邻算法。
测试算法：使用海伦提供的部分数据作为测试样本。测试样本和非测试样本的区别在于：测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。
使用算法：产生简单的命令行程序，然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。

1. 准备数据：从文本文件中解析数据

海伦的样本主要包含以下3种特征：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

收集的数据存放在datingTestSet2.txt中。在kNN.py中创建名为file2matrix的函数，将其转化为我们想要的格式。

def file2Matrix(filename):
    fr = open(filename)  # 打开文件
    arrayOLines = fr.readlines() #readlines 读取文件所有行 返回列表
    numberOfLines = len(arrayOLines) # 读取行的长度
    returnMat = zeros((numberOfLines, 3)) # 形成 numberOfLines * 3 行的0矩阵
    classLabelVector = [] # 定义列表
    index = 0
    for line in arrayOLines: # 循环处理文件中的每一行
        line = line.strip() # strip() # 用于移除字符串头尾指定的字符（默认为空格或换行符）
        listFromLine = line.split('\t') # 以'\t'将上述一行 转换为 一个单元列表
        # [index, : ] 加逗号 代表仅仅是index这一行 不加代表从index一直往后
        returnMat[index, : ] = listFromLine[0<