机器学习系列笔记二:K近邻算法与参数调优[上]

本文是机器学习系列笔记的第二部分,主要探讨K近邻算法(KNN)。首先介绍了手写KNN算法,包括模拟数据、KNN过程和距离计算。接着讨论了如何使用scikit-learn库实现KNN,并封装算法。文章还深入到评估机器学习模型性能,包括数据分离、准确度、超参数调整,特别是寻找最佳的k值和距离定义。最后,提到了Minkowski Distance及其超参数p的选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习系列笔记二:K近邻算法与参数调优[上]


KNN算法具有如下特点:

  • 思想简单
  • 应用数据知识少
  • 效果好
  • 可以解释机器学习算法使用过程中的很多细节问题
  • 更加完整地刻画机器学习应用的流程

而且,由于其算法思想导致KNN是一个不需要训练过程的算法,对于KNN而言,训练集就是模型。

所以,先学习KNN算法可以有效地了解和入门机器学习算法。
在这里插入图片描述 在这里插入图片描述

本质是认为,如果当前的输入和已有的某个样本足够相似的话,那么就认为当前输入从属与该样本的分类。

而KNN就是在比较了K个已有样本的相似程度之后,选取相似程度(占比)最大的样本所属分类作为当前输入的分类。

手写KNN

模拟数据

import numpy as np
import matplotlib.pyplot as plt


raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343808831, 3.368360954],
              [3.582294042, 4.679179110],
              [2.280362439, 2.866990263],
              [7.423436942, 4.696522875],
              [5.745051997, 3.533989803],
              [9.172168622, 2.511101045],
              [7.792783481, 3.424088941],
              [7.939820817, 0.791637231]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)

# print(X_train)
# print(y_train)

# 查看待训练数据的分布情况
plt.scatter(X_train[y_train==0,0],X_train[y_train==0,1],edgecolors='g')
plt.scatter(X_train[y_train==1,0],X_train[y_train==1,1],edgecolors='r')
plt.show()

在这里插入图片描述

# 待预测的点所在分布
x_input = np.array([8.093607318, 3.365731514])

plt.scatter(X_train[y_train==0,0], X_train[y_train==0,1], color='g')
plt.scatter(X_train[y_train==1,0], X_train[y_train==1,1], color='r')
plt.scatter(x_input[0], x_input[1], color='b')
plt.show()

在这里插入图片描述

KNN的过程

from math import sqrt
distances = []
for x_train in X_train:
    # 欧拉距离
    d = sqrt(np.sum((x_train-x_input)**2))
    distances.append(d)
distances

欧拉距离
d = ∑ i = 1 n ( X i ( i n p u t ) − X i s a m p l e j ) 2 d=\sqrt{\sum_{i=1}^n{\left( X_{i}^{\left( input \right)}-X_{i}^{sample_j} \right) ^2}} d=i=1n(Xi(input)Xisamplej)2

[4.812566907609877,
 5.229270827235305,
 6.749798999160064,
 4.6986266144110695,
 5.83460014556857,
 1.4900114024329525,
 2.354574897431513,
 1.3761132675144652,
 0.3064319992975,
 2.5786840957478887]

使用列表推导式生成distances

distances = [sqrt(np.sum((x_train-x_input)**2)) for x_train in X_train]
distances
[4.812566907609877,
 5.229270827235305,
 6.749798999160064,
 4.6986266144110695,
 5.83460014556857,
 1.4900114024329525,
 2.354574897431513,
 1.3761132675144652,
 0.3064319992975,
 2.5786840957478887]

使用np.argsort找出距离列表排序后各x_train元素的下标

np.argsort(distances)
array([8, 7, 5, 6, 9, 3, 0, 1, 4, 2], dtype=int64)

根据这些下标可以找到x_train元素对应的标签

nearest = np.argsort(distances)
k=6
topK_y=[y_train[i] for i in nearest[:k]]
topK_y
[1, 1, 1, 1, 1, 0]

使用Counter工具类完成LabelCount

from collections import Counter
Counter(topK_y) # Counter可以完成一个WordCount的过程,并将结果存入该实例对象中
Counter({1: 5, 0: 1})
votes=Counter(topK_y)
votes.most_common(1) # 找出最多的n个元素
[(1, 5)]

投票找出最"接近"输入的标签/类别

votes.most_common(1)[0][0] # 得到预测结果为类别1
1
predict_y 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值