KNN算法原理及其实现

原创已于 2024-10-22 23:37:52 修改 · 552 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能

于 2024-10-22 16:45:18 首次发布

本文是作者在学习张伟楠，赵寒烨，俞勇所著书籍《动手学机器学习》的学习过程记录。如有侵权，联系删除。

由于作者初学机器学习，很多内容相对基础。如有错误，恳请联系订正并谅解，谢谢！

1，KNN算法原理

分类任务的核心在于通过分析大量 $x_1{}$ 的样本的标签y，进而判断所需预测的x的标签y。KNN算法则是在于通过确定需要预测的x机器临近的已分类的 $x_1{}$ 的标签来判断x的标签。

如图，内圈为K=3时，外圈为K=5时。故KNN算法的基本思路在于使样本的分类分布服从邻居的多数。

2，KNN算法的源代码及实现

KNN算法最核心的在于距离的计算：

def distance(a,b):
    return np.sqrt(np.sum(np.square(a-b)))

随后，我们可以定义KNN的一个class。

class KNN:
    def __init__(self,k,label_num)
        self.k=k #确定k值，knn中最重要的区分环节
        self.label_num=label_num #确定有多少的label

拥有了class后，我们需要对class中保存训练数据，并进一步的计算距离。

    def fit(self,x_train,y_train):
        self.x_train=x_train
        self.y_train=y_train

    def get_knn_indices(self,x):   
        dis=list(map(lambda a:distance(a,x),self.x_train))
        #计算样本到目标样本的距离，并保存在一个list(即dis)中
        knn_indices=np.argsort(dis)
        #按照距离从小到大排序
        knn_indices=knn_indices[:self.k]
        #取最近k个下标
        return knn_indices

如此，我们完成了knn算法最重要的一部分：确定距离。接下来就在于如何具体实现了

    def get_label(self,x):
        knn_indices=self.get_knn_indices(x)
        label_statistic=np.zeros(shape=[self.label_num])
        #创建一个label_statistic数组，其大小等于self.label_num的大小。
        #此时我们开始计数在K内不同label有多少个x
        for index in knn_indices:
            label=int(self.y_train[index])
            label_statistic[label] += 1
        return np.argmax(label_statistic)

在此，我们便完成了knn的主体工作。我们只需要根据get_label的返回预测输入x的label即可

    def predict(self,x_test):
        predicted_test_labels=np.zeros(shape=[len(x_test)],dtype=int)
        #为要预测的x预留足够空间记录其label
        for i,x in enumerate(x_test):
            predicted_test_labels[i]=self.get_label(x)
        #对每一个x预测其label
        return predicted_test_labels

最后，直接调用KNN即可！

for k in range(1,10):
    knn=KNN(k,label_num=10)
    knn.fit(x_train,y_train)
    prediced_labels=knn.predict(x_test)

综上，代码如下：

def distance(a,b):
    return np.sqrt(np.sum(np.square(a-b)))

class KNN:
    def __init__(self,k,label_num):
        self.k=k
        self.lable_num=label_num

    def fit(self,x_train,y_train):
        self.x_train=x_train
        self.y_train=y_train

    def get_knn_indices(self,x):
        dis=list(map(lambda a:distance(a,x),self.x_train))
        knn_indices=np.argsort(dis)
        knn_indices=knn_indices[:self.k]
        return knn_indices
    
    def get_label(self,x):
        knn_indices=self.get_knn_indices(x)
        label_statistic=np.zeros(shape=[self.lable_num])
        for index in knn_indices:
            label=int(self.y_train[index])
            label_statistic[label]+=1
        return np.argmax(label_statistic)

    def predict(self,x_test):
        predicted_test_labels=np.zeros(shape=[len(x_test)],dtype=int)
        for i,x in enumerate(x_test):
            predicted_test_labels[i]=self.get_label(x)
        return predicted_test_labels

for k in range(1,10):
    knn=KNN(k,label_num=10)
    knn.fit(x_train,y_train)
    predicted_labels=knn.predict(x_test)