Python数据分析之机器学习：分类_python 数据分析分类-优快云博客

# 切分训练集和验证集(测试集)
from sklearn.model_selection import train_test_split
f_v = features.values  # 原先的数据是DataFrame,装换为数值，得到特征值
f_names = features.columns.values  # 得到特征名称
l_v = label.values
x_tt, x_validation, y_tt, y_validation = train_test_split(f_v, l_v, test_size=0.2)
# 将训练集再切分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x_tt, y_tt, test_size=0.25)

三、引入分类的性能评价指标

# 引入评价指标：精确度；召回率；F1分数
from sklearn.metrics import accuracy_score, recall_score, f1_score

准确率（Accuracy）

精确率（Precision）：在所有预测为正类的样本中，预测正确的比例，也称为查准率

召回率（Recall）：在所有实际为正类的样本中，预测正确的比例，也称为查全率

F1分数（F1 Score）：查准率和查全率的调和平均值

四、分类算法概述

1、KNN（K-Nearest Neighbors）

算法思想ÿ