KNN(一)

对机器学习实战这本书的KNN部分进行整理,代码分两部分,一部分是myKNN.py,包含了所需的函数,另一部分是myKNN_run.py,对所需函数进行调用。python版本为3.X。

myKNN.py:

# coding: utf-8

# In[3]:


from numpy import *
import operator
import os

def classify0(inX, dataSet, labels, k):
    #inX:用于分类的输入向量,1*2
    #dataSet:训练样本集,4*2
    dataSetSize = dataSet.shape[0]
    #距离计算,用矩阵快
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet# (A-B)
    #tile:重复
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    #按距离从小到大排序
    sortedDistIndices = distances.argsort()
    #确定前k个点所在类别出现频率
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#字典统计每个label出现的次数
    #出现频率最高点为预测类别
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    print(sortedClassCount)
    return sortedClassCount[0][0]

def file2matrix(filename):
    #将约会数据文件转成矩阵
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = zeros((numberOfLines,3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()#去掉所有回车符
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))#转换成整数
        #print(int(listFromLine[-1])
        index += 1
    return returnMat, classLabelVector

def autoNorm(dataSet):
    #将约会数据归一化,保证每个特征有同等重要性
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))
    return normDataSet, ranges, minVals

def datingClassTest(filename):
    #进行测试
    hoRatio = 0.10
    datingDataMat, datingLabels = file2matrix(filename)
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))
    print (errorCount)
    

def classifyPerson(filename):
    #进行预测
    resultList = ['not at all', 'in small doses', 'in larhe doses']
    percenTats = float(input('percentage of time spent playing video games?'))
    ffMiles = float(input('frequent fliter miles earned per year?'))
    iceCream = float(input('liters of ice cream consumed per year?'))
    datingDataMat, datingLabels = file2matrix(filename)
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percenTats, iceCream])
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels, 3)
    print('You will probably like person: ',resultList[classifierResult-1])

def img2vector(filename):
    reVect = zeros((1,1024))#由32*32变为1*1024
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            reVect[0, 32*i+j] = int(lineStr[j])
    return reVect


def handwritingClassTest(dirtrain,dirtest):
    hwlabels = []
    trainlist = os.listdir(dirtrain)#获得的是list
    m = len(trainlist)#list用len,array用shape
    trainmat = zeros((m,1024))
    for i in range(m):
        filename = trainlist[i]
        filestr = filename.split('.')[0]#只剩0_189
        classname = int(filestr.split('_')[0])#取0,别忘了变成整数
        hwlabels.append(classname)
        trainpath = os.path.join(dirtrain, filename)
        #print('***********',trainpath)
        trainmat[i,:] = img2vector(trainpath)
    testlist = os.listdir(dirtest)
    errorcount = 0.0
    mtest = len(testlist)
    for i in range(mtest):
        filename = testlist[i]
        filestr = filename.split('.')[0]
        classname = int(filestr.split('_')[0])
        testpath = os.path.join(dirtest, filename)
        #print('***********',testpath)
        testvector = img2vector(testpath)
        classresult = classify0(testvector, trainmat, hwlabels, 3)
        print('the classifier came back with: %d, the real answer is: %d'%(classresult, classname))
        if(classresult != classname): errorcount += 1.0
    print('\nthe total number of error is: %d' % errorcount)
    print('\nthe total error rate is: %f' %(errorcount/float(mtest)))

myKNN_run.py 进行函数调用。

import myKNN
import matplotlib.pyplot as plt
from numpy import *

#约会网站数据
mat, lab = myKNN.file2matrix('datingTestSet2.txt')
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(mat[:,1], mat[:,2], 15.0*array(lab), 15.0*array(lab))#不同颜色显示
plt.show()

nor, ranges, min = myKNN.autoNorm(mat)


myKNN.datingClassTest('datingTestSet2.txt')#约会网站测试
myKNN.classifyPerson('datingTestSet2.txt')#约会网站预测

#手写数据
shan = myKNN.img2vector('E:/ML/ML_Learn/机器学习实战(中文版+英文版+源代码)/机器学习实战源代码/machinelearninginaction/Ch02/trainingDigits/0_0.txt')
print(shan[0,0:39])
train = 'E:/ML/ML_Learn/机器学习实战(中文版+英文版+源代码)/机器学习实战源代码/machinelearninginaction/Ch02/trainingDigits'
test = 'E:/ML/ML_Learn/机器学习实战(中文版+英文版+源代码)/机器学习实战源代码/machinelearninginaction/Ch02/testDigits'
myKNN.handwritingClassTest(train, test)

上述代码,应用了两套数据,第一套数据为约会数据,第二套为手写数字分类。

其中部分结果为:

思考:

1、需保存全部数据集,占内存;

2、如手写数据集有2000个测试样本,则每次需计算2000个距离,计算效率低。1024*2000*900

3、无法给出数据的基础结构信息,如平均样例,典型样例。(抽象了)

 

具体数据及代码链接为:https://pan.baidu.com/s/1G4DWmV2Nc5t6kR8d-178dA,提取码:ycrc

 

 

 

 

 

05-17
### KNN算法简介 KNN算法(K-Nearest Neighbor Algorithm)是种基础的机器学习方法,广泛应用于分类和回归任务中。其核心思想是基于距离度量寻找与目标样本最接近的K个邻居,并利用这些邻居的信息来进行预测[^1]。 在实际操作中,KNN算法通过计算新输入样本与已有数据集中每个样本的距离,找出最近的K个样本作为参考依据。对于分类问题,通常采用多数投票法决定类别归属;而对于回归问题,则取这K个样本的目标值均值作为预测结果[^2]。 #### 算法特点 - **优点**: - 实现简单直观,易于理解和实现。 - 对于多分类问题具有良好的适应能力。 - 能够有效处理非线性分布的数据集。 - **缺点**: - 计算开销较大,尤其当数据规模增大时,每次查询都需要遍历整个训练集计算距离。 - 敏感于特征缩放以及噪声干扰,在预处理阶段需特别注意标准化等问题。 ### KNN算法的应用领域 由于其实用性和灵活性,KNN被成功运用于多个技术方向: 1. **图像识别** 图像可以通过像素矩阵形式表达,每张图片视为独立向量点.KNN通过对未知图象同数据库里存储的标准样例做对比分析从而判定所属种类.[^1] 2. **语音信号处理** 类似地,音频文件也能转换成频谱序列或者其他数字化描述方式之后交给KNN完成辨识工作. 3. **自然语言处理(NLP)** 文档主题建模或者情感倾向判断都可以借助此手段达成目的之就是先提取关键词频率统计之类的量化指标再送入模型内部运算得到最终结论. 4. **个性化推荐引擎开发** 用户行为习惯记录下来形成庞大的历史资料库以后就可以运用类似的原理推测可能感兴趣的商品列表呈现出来供浏览选购考虑了. 以下是简单的Python代码演示如何使用scikit-learn库快速搭建个基本版别的knn分类器实例: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 data = load_iris() X, y = data.data, data.target # 划分训练集与测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 数据标准化 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 初始化KNN分类器(k设为5) clf = KNeighborsClassifier(n_neighbors=5) clf.fit(X_train_scaled, y_train) # 进行预测 y_pred = clf.predict(X_test_scaled) # 输出准确率 print(f'Accuracy: {accuracy_score(y_test, y_pred):.2f}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值