Scikit-learn从入门到实践:Scikit-learn线性模型入门与实践

原创已于 2025-09-03 15:03:58 修改 · 320 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #python #机器学习

于 2025-09-03 14:49:55 首次发布

部署运行你感兴趣的模型镜像

线性模型实战：从理论到实践

学习目标

通过本课程的学习，学员将掌握Scikit-learn中线性模型的基本理论和实践应用，包括线性回归和逻辑回归的使用方法，以及如何利用这些模型解决实际问题。

学习内容

1 Scikit-learn线性模型

1.1 线性回归

线性回归是一种用于预测连续值输出的统计方法。它假设输出变量（y）与一个或多个输入变量（x）之间存在线性关系。线性回归模型可以表示为：

$\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon$

其中， $β0\beta_0$ 是截距， $(β1,β2,...,βn)(\beta_1, \beta_2, ..., \beta_n)$ 是与每个输入变量对应的系数， $ϵ\epsilon$ 是误差项。线性回归的目标是找到最佳的系数值，使得预测值与实际值之间的误差最小。

在Scikit-learn中，可以使用LinearRegression类来实现线性回归。下面是一个简单的例子，我们将使用糖尿病数据集来预测糖尿病指标。

pip install scikit-learn==1.1

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_diabetes
import numpy as np

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

Mean Squared Error: 2900.193628493483

1.2 逻辑回归

逻辑回归是一种用于分类问题的统计方法，尽管名字中包含“回归”，但它实际上是一种分类算法。逻辑回归通过Sigmoid函数将线性回归的输出转换为概率值，从而实现分类。Sigmoid函数的公式为：

$\frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n)}}$

在Scikit-learn中，可以使用LogisticRegression类来实现逻辑回归。下面是一个简单的例子，我们将使用鸢尾花数据集来分类鸢尾花的种类。

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建逻辑回归模型
model = LogisticRegression(max_iter=200)

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

Accuracy: 1.0

1.3 模型评估与选择

在机器学习中，模型评估和选择是非常重要的步骤。通过评估模型的性能，我们可以了解模型在新数据上的表现，并选择最佳的模型。常见的评估指标包括均方误差（MSE）、准确率（Accuracy）、精确率（Precision）、召回率（Recall）等。

在Scikit-learn中，可以使用cross_val_score函数来进行交叉验证，以评估模型的性能。下面是一个使用交叉验证评估线性回归模型的例子。

from sklearn.model_selection import cross_val_score

# 使用交叉验证评估逻辑回归模型
scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
mse_scores = -scores
print(f"Cross-validated Mean Squared Errors: {mse_scores}")
print(f"Average Mean Squared Error: {mse_scores.mean()}")

Cross-validated Mean Squared Errors: [0.03333333 0.         0.06666667 0.03333333 0.        ]
Average Mean Squared Error: 0.026666666666666665

通过上述步骤，我们可以更全面地评估模型的性能，并选择最佳的模型。在实际应用中，模型的选择往往需要结合业务需求和数据特性来综合考虑。

通过本课程的学习，学员将能够熟练掌握Scikit-learn中线性模型的使用方法，并能够应用这些模型解决实际问题。

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎