4.2 最近邻规则分类算法(KNN)应用

本文通过手写KNN算法及使用Python的SKLearn库两种方式实现了对经典Iris数据集的分类预测。首先介绍了Iris数据集的基本情况,并使用SKLearn库中的KNN分类器进行了简单示例。随后详细展示了手写KNN算法的过程,包括数据加载、距离计算、邻居选择、响应获取及准确率评估等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 数据集介绍:

虹膜
这里写图片描述

150个实例
这里写图片描述
萼片长度,萼片宽度,花瓣长度,花瓣宽度
(sepal length, sepal width, petal length and petal width)

类别:
Iris setosa, Iris versicolor, Iris virginica.

  1. 利用Python的机器学习库sklearn: SkLearnExample.py
from sklearn import neighbors
from sklearn import datasets
knn = neighbors.KNeighborsClassifier()
iris = datasets.load_iris()
print iris
knn.fit(iris.data, iris.target)
predictedLabel = knn.predict([[0.1, 0.2, 0.3, 0.4]])

print predictedLabel

3.手写knn算法:

import csv 
import random
import math
import operator
from webbrowser import Opera


def loadDataSet(filename,split,trainingSet=[],testSet=[]):
    with open(filename,'rb') as csvfile:
        lines=csv.reader(csvfile)
        dataset=list(lines)
        for x in range(len(dataset)-1):
            for y in range(4):
                dataset[x][y]=float(dataset[x][y])
            if random.random()<split:
                trainingSet.append(dataset[x])
            else:
                testSet.append(dataset[x])





def euclideanDistance(testInstance, trainInstance, lenght):
    distance=0;
    for x in range(lenght):
        distance+=(testInstance[x]-trainInstance[x])**2;
    return math.sqrt(distance)


def getNeighbors(trainingSet, testInstance, k):
    distances=[]
    lenght=len(testInstance)-1
    for x in range(len(trainingSet)):
        dist=euclideanDistance(testInstance,trainingSet[x],lenght)
        distances.append((trainingSet[x],dist))
    distances.sort( key=operator.itemgetter(1))
    neighbors=[]
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors


def getResponse(neighbors):
    classVotes={}
    for x in range(len(neighbors)):
        response=neighbors[x][-1]
        if response in classVotes:
            classVotes[response]+=1
        else:
            classVotes[response]=1
    sortedVotes=sorted(classVotes.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedVotes[0][0]


def getAccuracy(testSet, predictions):
    correct=0
    for x in range(len(testSet)):
        if testSet[x][-1]==predictions[x]:
            correct+=1
    return (correct/float(len(testSet)))*100.0


def main():
    trainingSet=[]
    testSet=[]
    loadDataSet("irisdata.csv", 0.67, trainingSet, testSet) 
    print  "trainingSet:",trainingSet
    print "testSet:",testSet

    predictions=[]
    k=3
    for x in range(len(testSet)):
        neighbors=getNeighbors(trainingSet,testSet[x],k)
        result=getResponse(neighbors)
        predictions.append(result)
        print ('>predicted='+repr(result)+',actual='+repr(testSet[x][-1]))
    accuracy=getAccuracy(testSet,predictions)
    print('Accuracy:'+repr(accuracy)+'%')



if __name__=="__main__":
    main()                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值