K-近邻算法详解与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_41858806/article/details/132154608

1.1 K近邻算法

如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。

1.1.1 算法原理

1.1.1.1 欧式距离

计算已知类别数据集中的点与当前点之间的距离。

按距离递增次序排序。

选取与当前点距离最小的k个点。

统计前k个点所在的类别出现的频率。

返回前k个点出现频率最高的类别作为当前点的预测分类。

1.1.2 代码实现

1.1.2.1 导包

import time
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris, fetch_20newsgroups, fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

1.1.2.2 导入数据

from sklearn.datasets import load_iris

li = load_iris()
print("数据集规模:", li.data.shape)
print("数据集特征:", li.feature_names)
print("数据集目标:", li.target_names)

1.1.2.3 数据划分

x_train, x_test, y_train, y_test = train_test_split(li.data,
                                                    li.target,
                                                    test_size=0.25,
                                                    random_state=1)
print("训练集特征值形状:", x_train.shape)
print("测试集特征值形状:", x_test.shape)

1.1.2.4 特征工程

std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)

1.1.2.5 模型训练

knn = KNeighborsClassifier(n_neighbors=6)
knn.fit(x_train, y_train)
y_predict = knn.predict(x_test)
print("预测值:", y_predict)

1.1.2.6 模型评估

print("准确率:", knn.score(x_test, y_test))

1.1.3 网格搜索

1.1.3.1 参数选择

param = {"n_neighbors": [3, 5, 10, 12, 15],
         "weights": ['uniform', 'distance']}

1.1.3.2 交叉验证

gc = GridSearchCV(knn, param_grid=param, cv=3)
gc.fit(x_train,y_train)
print("在测试集上准确率:", gc.score(x_test, y_test))
print("交叉验证最好结果:", gc.best_score_)
print("选择最好的模型是:", gc.best_estimator_)