Scikit-learn机器学习入门指南-优快云博客

Scikit-learn机器学习入门指南

scikit-learn 一个基于 Python 的机器学习框架项目，适合对机器学习算法和应用感兴趣的人士学习和实践，内容包括分类、回归、聚类等多个领域。特点是功能丰富，算法齐全，易于理解和应用。项目地址: https://gitcode.com/gh_mirrors/sc/scikit-learn

概述

Scikit-learn是Python中最流行的机器学习库之一，提供了丰富的机器学习算法实现和数据处理工具。本文将从技术专家角度，带您快速了解Scikit-learn的核心功能和使用方法。

安装与环境准备

在开始使用Scikit-learn之前，需要确保已正确安装Python环境。Scikit-learn支持Python 3.7及以上版本，建议使用pip或conda进行安装。

基本概念：估计器(Estimator)

Scikit-learn的核心是估计器(Estimator)概念，所有机器学习算法都实现了估计器接口。估计器通常包含两个基本方法：

fit()：用于训练模型
predict()：用于进行预测

示例：随机森林分类器

from sklearn.ensemble import RandomForestClassifier

# 创建随机森林分类器实例
clf = RandomForestClassifier(random_state=0)

# 准备数据
X = [[1, 2, 3], [11, 12, 13]]  # 2个样本，每个样本3个特征
y = [0, 1]  # 对应的类别标签

# 训练模型
clf.fit(X, y)

# 进行预测
print(clf.predict([[4, 5, 6]]))  # 输出预测类别

数据预处理与转换器

在实际机器学习项目中，数据预处理是必不可少的步骤。Scikit-learn提供了多种数据预处理工具，它们也遵循估计器接口，但主要使用transform()方法而非predict()。

标准化示例

from sklearn.preprocessing import StandardScaler

X = [[0, 15], [1, -10]]
scaler = StandardScaler().fit(X)
print(scaler.transform(X))

构建机器学习管道(Pipeline)

Scikit-learn的Pipeline功能可以将多个处理步骤串联起来，形成一个完整的工作流。这种方式不仅代码更简洁，还能有效防止数据泄露。

管道使用示例

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 创建管道
pipe = make_pipeline(
    StandardScaler(),
    LogisticRegression()
)

# 加载数据并分割
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# 训练管道
pipe.fit(X_train, y_train)

# 评估模型
print(pipe.score(X_test, y_test))

模型评估方法

Scikit-learn提供了丰富的模型评估工具，包括：

简单的训练集/测试集分割
交叉验证
多种评估指标

交叉验证示例

from sklearn.model_selection import cross_validate
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression

X, y = make_regression(n_samples=1000, random_state=0)
lr = LinearRegression()

# 5折交叉验证
result = cross_validate(lr, X, y)
print(result['test_score'])  # 输出各折的R²分数

超参数优化

选择合适的模型超参数对模型性能至关重要。Scikit-learn提供了多种超参数搜索方法：

网格搜索(GridSearchCV)
随机搜索(RandomizedSearchCV)
贝叶斯优化等

随机搜索示例

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# 定义参数搜索空间
param_dist = {
    'n_estimators': randint(1, 5),
    'max_depth': randint(5, 10)
}

# 创建搜索对象
search = RandomizedSearchCV(
    RandomForestRegressor(random_state=0),
    param_distributions=param_dist,
    n_iter=5,
    random_state=0
)

# 执行搜索
search.fit(X_train, y_train)

# 输出最佳参数
print(search.best_params_)