Scikit-learn 基础教程
Scikit-learn(简称 sklearn)是一个强大且易于使用的 Python 机器学习库。它包含各种分类、回归和聚类算法,并且与其他科学计算库(如 NumPy 和 SciPy)无缝集成。本教程将带你了解 sklearn 的基本用法,从数据准备到模型评估。
安装 Scikit-learn
首先,你需要安装 scikit-learn。如果你还没有安装它,可以使用以下命令:
pip install scikit-learn
数据准备
在进行机器学习之前,你需要准备好数据。Scikit-learn 提供了一些内置的数据集,可以帮助你快速上手。我们将使用 load_iris
数据集作为示例。
from sklearn.datasets import load_iris
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
X
是特征数据,y
是标签数据。
数据分割
在训练模型之前,我们需要将数据分为训练集和测试集。Scikit-learn 提供了 train_test_split
函数来完成这一步。
from sklearn.model_selection import train_test_split
# 分割数据集,75% 用于训练,25% 用于测试
X_train, X_tes