K近邻分类算法实现 in Python

本文介绍了如何在Python中实现K近邻(KNN)分类算法,包括其作为non-parametric分类器的特点,以及在高维数据上的局限性。通过示例代码展示了KNN的简单应用,并提到了算法复杂度问题,建议使用KD树进行优化。同时,讨论了k值选择对分类精度的影响。最后,提供了代码运行的几种方式。

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.youkuaiyun.com/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

               

K近邻(KNN):分类算法

* KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning.

* KNN不适用于高维数据(curse of dimension)

* Machine Learning的Python库很多,比如mlpy更多packages),这里实现只是为了掌握方法

* MATLAB 中的调用,见《MATLAB分类器大全(svm,knn,随机森林等)》

* KNN算法复杂度高(可用KD树优化,C中可以用libkdtree或者ANN

* k越小越容易过拟合,但是k很大会降分类精度(设想极限情况:k=1和k=N(样本数))



本文不介绍理论了,注释见代码。

KNN.py

from numpy import *import operatorclass KNN:    def createDataset(self):        group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])        labels = ['A','A','B','B']        return group,labels    def KnnClassify(self,testX,trainX,labels,K):        [N,M]=trainX.shape        #calculate the distance between testX and other training samples        difference = tile(testX,(N,1)) - trainX # tile for array and repeat for matrix in Python, == repmat in Matlab        difference = difference ** 2 # take pow(difference,2)        distance = difference.sum(1) # take the sum of difference from all dimensions        distance = distance ** 0.5        sortdiffidx = distance.argsort()        # find the k nearest neighbours        vote = {} #create the dictionary        for i in range(K):            ith_label = labels[sortdiffidx[i]];            vote[ith_label] = vote.get(ith_label,0)+1 #get(ith_label,0) : if dictionary 'vote' exist key 'ith_label', return vote[ith_label]; else return 0        sortedvote = sorted(vote.iteritems(),key = lambda x:x[1], reverse = True)        # 'key = lambda x: x[1]' can be substituted by operator.itemgetter(1)        return sortedvote[0][0]k = KNN() #create KNN objectgroup,labels = k.createDataset()cls = k.KnnClassify([0,0],group,labels,3)print cls


-------------------
运行:

1. 在Python Shell 中可以运行KNN.py

>>>import os

>>>os.chdir("/Users/mba/Documents/Study/Machine_Learning/Python/KNN")

>>>execfile("KNN.py")

输出B

(B表示类别)


2. 或者terminal中直接运行

$ python KNN.py


3. 也可以不在KNN.py中写输出,而选择在Shell中获得结果,i.e.,

>>>import KNN

>>> KNN.k.KnnClassify([0,0],KNN.group,KNN.labels,3)




关于Python更多的学习资料将继续更新,敬请关注本博客和新浪微博Rachel Zhang



           

给我老师的人工智能教程打call!http://blog.youkuaiyun.com/jiangjunshow
这里写图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值