02-分类算法：knn、朴素贝叶斯、决策树和随机森林

最新推荐文章于 2025-04-11 15:15:50 发布

yanyx1

最新推荐文章于 2025-04-11 15:15:50 发布

阅读量3.5k

点赞数 1

文章标签：分类算法最近邻分类算法决策树 python

本文链接：https://blog.youkuaiyun.com/weixin_46309026/article/details/106902712

版权

本文详细介绍了Python中sklearn库的分类算法，包括k近邻（KNN）、朴素贝叶斯、决策树和随机森林。讲解了每个算法的基本概念、公式、实现语法、模型调优方法以及各自的优缺点。通过案例展示了如何运用这些算法进行预测，并提供了数据集划分和获取的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sklearn数据集

一、数据集划分

二、数据集获取

三、sklearn机器学习算法的实现-估计器

sklearn数据集

一、数据集划分

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

语法：sklearn.model_selection.train_test_split

x：数据集的特征值
y：数据集的标签值
test_size：测试集的大小，一般为float
random_state：随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return：训练集特征值，测试集特征值，训练标签，测试标签 (默认随机取)

二、数据集获取

语法：sklearn.datasets（加载获取流行数据集）

datasets.load_*() （获取小规模数据集，数据包含在datasets里）
datasets.fetch_*(data_home=None) （获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/）

三、sklearn机器学习算法的实现-估计器

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API

1、用于分类的估计器：

sklearn.neighbors k-近邻算法
sklearn.naive_bayes 贝叶斯
sklearn.linear_model.LogisticRegression 逻辑回归

2、用于回归的估计器：

sklearn.linear_model.LinearRegression 线性回归
sklearn.linear_model.Ridge 岭回归

分类算法-k近邻算法(KNN)

一、定义：

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

二、公式：

两个样本的距离可以通过如下公式计算，又叫欧式距离，比如说，a(a1,a2,a3),b(b1,b2,b3)

三、语法：

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)