《机器学习实战》第2章学习笔记2（knn算法）

最新推荐文章于 2024-12-25 10:24:27 发布

原创最新推荐文章于 2024-12-25 10:24:27 发布 · 399 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习实战 #数字识别 #k-近邻算法

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文记录了《机器学习实战》第2章的学习笔记，聚焦于knn算法在数字识别任务中的应用。图像数据集包含32x32像素的黑白图像，分为trainingDigits和testDigits两个目录，分别用于训练和测试模型。通过file2vector函数将图像转换为特征向量，然后利用改进后的handwritingClassTest方法进行分类。测试结果显示了模型的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像采用文本格式存储，具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。

实际图像存储在两个子目录内：目录加如trainingDigits中包含了大约2000个例子，每个数字大约有200个样本；目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器，使用目录testDigits中的数据来测试分类器的效果。两组数据没有覆盖。

代码示例：

# -*- coding: utf-8 -*-
"""
Created on Fri Apr 13 09:52:11 2018

@author: lizihua
"""
import numpy as np
import os 
import operator

#k-近邻算法
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]     #获取行数
    #计算欧式距离
    #将inX扩维，使其与dataSet形状一致，以便实现获得X-dataSet数组
    diffMat = np.tile(inX, (dataSetSize,1))-dataSet  
    sqdiffMat = diffMat**2
    sqDisatances = sqdiffMat.sum(axis=1)
    distances=sqDisatances**0.5
    #argsort返回distance从小到大的排序索引，此时，distance并没有改变
    sortedDistIndicies=np.argsort(distances)
    classCount={}
    for i in range(k):
        #voteIlabel是按照distance从小到大排序的label
        voteIlabel = labels[sortedDistIndicies[i]]
        #计算前k个数中，各类出现的频率
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
        #对字典进行排序，并返回列表
        #key=operator.itemgetter(1)代表按照第二个元素对字典排序，reversed=True代表从大到小排序
        #返回列表形式，例如：[('B', 2), ('A', 1)]
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

#将图像转换为测试向量
#图像是32*32的二进制图像，将其转换为1*1024的向量
def img2vector(filename):
    returnVect = np.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

#现将文件图像转换为向量，并提取类别
#然后测试分类器
def handwritingClassTest():
    hwLabels = []  
    trainingFileList = os.listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = np.zeros((m,1024))
    for i in range(m):
        #例如：当i=0时，fileNameStr:0_0.txt
        fileNameStr = trainingFileList[i]
        #例如：当i=0时，fileStr:0_0
        fileStr = fileNameStr.split('.')[0]
        #例如，提取类别，由于文件名的第一个数为类别，因此，
        #当i=0时，classNumStr=0
        classNumStr = int (fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s'% fileNameStr)
    testFileList = os.listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s'% fileNameStr)
        #调用k-近邻算法，其中k取3
        classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print("预测值：%d，实际值：%d" % (classifierResult,classNumStr))
        if classifierResult != classNumStr:
            errorCount += 1
    print("错误判断的数量：",errorCount)
    print("错误率：",errorCount/mTest)

#测试
if __name__=="__main__":
    handwritingClassTest()

自我理解的代码改进：由于训练集和测试集图像文本转换为测试向量的步骤相同，因此，将这一步骤定义为file2vector函数，以便调用。即，与上面代码相比，handwritingClassTest方法变成两个方法：file2vector+handwritingClassTest方法。

现展示这两个方法：代码如下：

#将所有图像文件一次性转换为向量，并提取类别
def file2vector(filename):
    Labels = []
    FileList = os.listdir(filename)
    m = len(FileList)
    Mat = np.zeros((m,1024))
    for i in range(m):
        #例如：当i=0时，fileNameStr:0_0.txt
        fileNameStr = FileList[i]
        #例如：当i=0时，fileStr:0_0
        fileStr = fileNameStr.split('.')[0]
        #例如，提取类别，由于文件名的第一个数为类别，因此，
        #当i=0时，classNumStr=0
        classNumStr = int (fileStr.split('_')[0])
        Labels.append(classNumStr)
        Mat[i,:] = img2vector((filename+'/%s')% fileNameStr)
    return Mat,Labels

#测试分类器
def handwritingClassTest():
    trainingMat,hwLabels = file2vector('trainingDigits')
    errorCount = 0.0
    vectorUnderTest,testLabels = file2vector('testDigits')
    mTest = len(os.listdir('testDigits'))
    for i in range(mTest):
        classifierResult = classify0(vectorUnderTest[i],trainingMat,hwLabels,3)
        print("预测值：%d，实际值：%d" % (classifierResult,testLabels[i]))
        if classifierResult != testLabels[i]:
            errorCount += 1
    print("错误判断的数量：",errorCount)
    print("错误率：",errorCount/mTest)

部分结果显示：