k-NN

  • k近邻算法的工作原理:

存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集合中前k个最相似的数据,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

  • kNN实现伪代码:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的k个点;

(4)确定前k个点所在类别的出现频率;

(5)返回前k个点出现频率最高的类别作为当前点的预测分类。

代码实现

def kNN(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistance = sqDiffMat.sum(axis=1)
    distances = sqDistance ** 0.5
    sortedDistIndicies = distances.argsort()
    ClassCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        ClassCount[voteIlabel] = ClassCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(ClassCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

(1)kNN函数输入的四个参数:用于分类的输入向量inX,输入的训练样本集为dataSet,标签向量labels,选择最近邻的数目k

(2)dataSetSize=dataSet.shape[0] //训练样本集dataSet的第一维大小(样本数量)

(3)numpy.tile(A,reps) //Construct an array by repeating A the number of times given by reps.

(4)** 次方操作

(5)get函数,详见这里

(6)sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

这里使用了sorted()函数sorted(iterable, cmp=None, key=None, reverse=False),iteritems()将dict分解为元组列表,operator.itemgetter(1)表示按照第二个元素的次序对元组进行排序,reverse=True降序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值