机器学习算法——K邻近算法

本文介绍了一种简单直观的分类算法——K近邻算法,并通过Python代码实现了该算法。使用了numpy库进行数学运算,operator模块对结果进行排序,通过一个具体的例子展示了如何利用K近邻算法对未知数据进行分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#-*-coding=utf-8-*-
__author__ = 'whf'
from numpy import *
import operator
def classify (inx,dataSet,labels,k):
    #得到数据集的行数  shape方法用来得到矩阵或数组的维数
    dataSetSize = dataSet.shape[0]
    #tile:numpy中的函数。tile将原来的一个数组,扩充成了dataSetSize行1列的数组。diffMat得到了目标与训练数值之间的差值。
    diffMat = tile(inx,(dataSetSize,1))-dataSet
    #计算差值的平方
    sqDiffMat = diffMat**2
    #计算差值平方和
    sqDistances = sqDiffMat.sum(axis = 1)
    #计算距离
    distances = sqDistances**0.5
    #得到排序后坐标的序号  argsort方法得到矩阵中每个元素的排序序号
    sortedDistIndicies = distances.argsort()
    classcount = {}
    for i in range(k):
        #找到前k个距离最近的坐标的标签
        voteIlabel = labels[sortedDistIndicies[i]]
        #在字典中设置键值对: 标签:出现的次数
        classcount [voteIlabel] = classcount.get(voteIlabel,0)+1 #如果voteIlable标签在classcount中就得到它的值加1否则就是0+1
    # 对字典中的类别出现次数进行排序,classCount中存储的事 key-value,其中key就是label,value就是出现的次数
    # 所以key=operator.itemgetter(1)选中的是value,也就是对次数进行排序 reverse = True表示降序排列
    sortedClassCount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
print classify([0.1,0.1],group,labels,3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值