import pandas as pd from sklearn.datasets import load_iris, fetch_20newsgroups from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.preprocessing import StandardScaler from sklearn.naive_bayes import MultinomialNB from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn.ensemble import RandomForestClassifier def transformer_estimator(): """ 转换器和预估器 1.transformer : 特征工程 - 1.实例化 2.调用fit_transform 2.estimator : 是一类实现了算法的API, 分类, 回归, 无监督学习等算法都是其子类 工作流程 : 实例化estimator -> estimator.fit(x_test, y_test) 测试集计算, 训练 -> 调用完毕, 模型生成 -> 模型评估 1.对比真实值和预测值 y_predict = estimator.predict(x_test), y_test == y_predict ? 2.计算准确率 estimator.score(x_test, y_test) :return: """ return None def k_nearest_neighbors(): """ K-近邻算法(KNN) 核心思想 : 根据邻居判断类别 距离公式 : 欧氏距离, 曼哈顿距离, 明可夫斯基距离 无量纲化的处理 : 标准化 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto') n_neighbors : int, 默认5, 查询使用的邻居数 algorithm : 'auto', 'ball_tree', 'kd_tree', 'brute' 选用于计算近邻的最适算法 优点 : 简单, 易于理解, 易于实现, 无需训练 缺点 : 懒惰算法, 对测试样本分类时, 计算量大, 内存开销大; 必须指定k值, k值选择不当则分类精度不能保证 使用场景 : 小规模数据, 数据范围 1,000 ~ 99,999, :return: """ # 案例 : iris分类 # 1.获取数据 iris = load_iris() # 2.划分数据集 x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6) # 3.特征工程 : 标准化 transfer = StandardScaler() x_train = transfer.fit_transform(x_train) x_test = transfer.transform