KNN算法精讲-优快云博客

本文链接：https://blog.youkuaiyun.com/rusi__/article/details/103749442

前言

尽量表述易懂。
重在算法本身，案例的的特征处理和数据清洗没有做多少。

python实现KNN算法API介绍：

API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
重要参数介绍（第二个参数了解即可）：
- n_neighbors：int,可选（默认= 5），是查询默认使用的邻居数（邻居数的大小是影响算法准确性的：小了容易受到异常点的影响，k值取很大的时候比例会受到影响）。
- algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree， ‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式（不同数据结构），计算效率不同)。

测试案例

数据集链接：Facebook用户签到数据集（具体要求请阅读数据集相关说明）
数据集分类简单介绍：
- 特征值：row_id：签到事件的ID x y：坐标 accuracy：位置精度 time：时间戳 place_id（目标值）：商家的ID（睡觉的地方）
- 目标值：入住位置的id

#!/usr/local/bin/python3
# -*- coding: utf-8 -*-
# Author  : rusi_
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


def where_sleep():
    """
    k-近邻预测用户的（入住）签到位置
    :return:
    """
    # 读取数据
    data = pd.read_csv(r"E:\mac_obj_file\facebook\train.csv")
    data = data.query("x>1.0 & x<1.25 & y>2.5 & y<2.75")
    
    time_value = pd.to_datetime(data["time"], unit="s")  
    time_value = pd.DatetimeIndex(time_value)
    # 构造一些特征（可继续构造或者删除）
    # data["day"] = time_value.day
    data.loc[:, "day"] = time_value.day  # 推荐写法
    data["hour"] = time_value.hour
    data["weekday"] = time_value.weekday
    data = data.drop(["time"], axis=1)

    place_count = data.groupby("place_id").count()
    # tf = place_count[place_count.row_id > 3].reset_index()
    tf = place_count[place_count["row_id"] > 3].reset_index()  # 两种写法都可以
    data = data[data["place_id"].isin(tf["place_id"])]

    y = data["place_id"]
    x = data.drop(["place_id"], axis=1)
    x = x.drop(["row_id"], axis=1)
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

    # 特征工程（标准化）ps:如果没有这个特征工程准确率为0.07
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 进行算法流程
    knn = KNeighborsClassifier(n_neighbors=5)  # n_neighbors 参数可调
    knn.fit(x_train, y_train)
    y_predict = knn.predict(x_test)
    # print("预测的目标签到位置：\n", y_predict)
    # 查看准确率
    print("预测的准确率:\n", knn.score(x_test, y_test))
    return None


if __name__ == '__main__':
    where_sleep()