Python 笔记 MachineLearning Stage 2-优快云博客

本文链接：https://blog.youkuaiyun.com/2302_79764677/article/details/140426259

import pandas as pd
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier


def transformer_estimator():
    """
    转换器和预估器
    1.transformer : 特征工程 - 1.实例化 2.调用fit_transform

    2.estimator : 是一类实现了算法的API, 分类, 回归, 无监督学习等算法都是其子类
    工作流程 : 实例化estimator -> estimator.fit(x_test, y_test) 测试集计算, 训练 -> 调用完毕, 模型生成 ->
              模型评估 1.对比真实值和预测值 y_predict = estimator.predict(x_test), y_test == y_predict ?
                      2.计算准确率 estimator.score(x_test, y_test)
    :return:
    """

    return None


def k_nearest_neighbors():
    """
    K-近邻算法(KNN)
    核心思想 : 根据邻居判断类别
    距离公式 : 欧氏距离, 曼哈顿距离, 明可夫斯基距离
    无量纲化的处理 : 标准化
    sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto')
    n_neighbors : int, 默认5, 查询使用的邻居数
    algorithm : 'auto', 'ball_tree', 'kd_tree', 'brute' 选用于计算近邻的最适算法

    优点 : 简单, 易于理解, 易于实现, 无需训练
    缺点 : 懒惰算法, 对测试样本分类时, 计算量大, 内存开销大; 必须指定k值, k值选择不当则分类精度不能保证
    使用场景 : 小规模数据, 数据范围 1,000 ~ 99,999,
    :return:
    """

    # 案例 : iris分类

    # 1.获取数据
    iris = load_iris()

    # 2.划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6)

    # 3.特征工程 : 标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform