sklearn基础教程-优快云博客

sklearn基础教程

1. 简介

sklearn（Scikit-Learn）是一个开源的机器学习库，用于数据挖掘和数据分析。它建立在NumPy、SciPy和matplotlib这些科学计算库之上，提供了许多强大的工具和算法。

2. 安装和导入

首先，你需要安装sklearn。可以通过pip命令安装：

pip install scikit-learn

安装完成后，导入所需的模块：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from joblib import dump, load

3. 数据集

sklearn提供了许多内置的数据集，这些数据集可以用于测试和训练机器学习模型。以下是加载波士顿房价数据集的示例：

from sklearn.datasets import load_boston
boston = load_boston()
X, y = boston.data, boston.target

4. 数据预处理

在训练模型之前，通常需要对数据进行预处理。这包括标准化、归一化等。

4.1 标准化

标准化是将数据转换为具有零均值和单位方差的格式：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. 模型训练

在sklearn中，训练模型通常涉及以下几个步骤：

5.1 数据集分割

使用train_test_split将数据集分割为训练集和测试集：

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

5.2 训练模型

以线性回归为例，训练模型：

model = LinearRegression()
model.fit(X_train, y_train)

6. 模型评估

评估模型的性能是机器学习中的重要步骤。常用的评估指标包括均方误差（MSE）：

mse = mean_squared_error(y_test, model.predict(X_test))
print("Mean Squared Error:", mse)

7. 模型优化

模型优化可以通过交叉验证和参数调整来实现。

7.1 交叉验证

交叉验证是一种评估模型泛化能力的方法：

scores = cross_val_score(model, X_scaled, y, cv=5)
print("Cross-validation scores:", scores)

8. 模型保存和加载

训练好的模型可以通过joblib或pickle保存和加载：

dump(model, 'model.joblib')
model_loaded = load('model.joblib')

9. 实际案例

让我们通过一个实际案例来展示如何使用sklearn进行机器学习项目。假设我们要预测房价：

# 加载数据
boston = load_boston()
X, y = boston.data, boston.target

# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 数据集分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 模型评估
mse = mean_squared_error(y_test, model.predict(X_test))
print("Mean Squared Error:", mse)

# 模型优化
scores = cross_val_score(model, X_scaled, y, cv=5)
print("Cross-validation scores:", scores)

# 模型保存
dump(model, 'model.joblib')

# 模型加载
model_loaded = load('model.joblib')
print("Model loaded successfully.")