KNN算法详解与实战-优快云博客

算法优缺点

简单，易于理解，是一个天然的多分类器	数据量大的时候，计算量也非常大（样本多，特征多）
不需要庞大的样本数据也可以完成一个简单的分类	不平衡样本处理能力差
不需要训练和求解参数	并没有学习和优化的过程，严格来说不算是机器学习

KNN算法实战--集美大学分区

算法目的：

看下图，蓝线简单的把集美大学本部划分成两个区，以下为学习区，以上为休息区。接下来我们就用KNN算法来辨别目标点到底是学习区（study）还是休息区（rest ）。

获取数据集

将上述所有展示的点用二维坐标表示，可以用qq截图功能将像素点近似的表示成距离

如下示例，以左下角为原点，则第一个点计算机工程学院的坐标为（72，15）。

统计后结果如下

代码

import random
import csv

#读取
with open('KNN.csv','r',encoding='utf-8') as file:

    reader=csv.DictReader(file)
    datas=[row for row in reader]

#分组
random.shuffle(datas)#打乱
n=len(datas)//3

test_set=datas[0:n]
train_set=datas[n:]
#计算欧氏距离
def distance(d1,d2):
    res=0

    for key in ("x","y"):
        res+=(float(d1[key])-float(d2[key]))**2

    return res**0.5
K=1


def knn(data):
    res=[
        {"label_result":train['label'],"distance":distance(data,train)}
        for train in train_set
    ]
    #排序
    res=sorted(res,key=lambda item:item['distance'])
    #取前K个
    res2=res[0:K]

    #加权平均
    result={'study':0,'rest':0}

    sum=0
    for r in res2:
        sum+=r['distance']

    for r in res2:
        result[r['label_result']]+=1-r['distance']/sum
    if result['study']>result['rest']:
        return 'study'
    else:
        return 'rest'
for i in range(10):
    random.shuffle(datas)  # 打乱
    n = len(datas) // 3

    test_set = datas[0:n]
    train_set = datas[n:]
    correct=0
    for test in test_set:
        result=test['label']
        result2=knn(test)

        if result==result2:
            correct+=1
    print(correct/len(test_set))
    i+=1