手把手教你理解机器学习中的“逻辑回归”

最新推荐文章于 2025-06-13 16:48:52 发布

搞程序的心海

最新推荐文章于 2025-06-13 16:48:52 发布

阅读量1k

点赞数 30

分类专栏：机器学习文章标签：机器学习线性回归人工智能

本文链接：https://blog.youkuaiyun.com/weixin_66485800/article/details/146277525

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

嗨，大家好，我是心海！

在机器学习中，逻辑回归（Logistic Regression）是一种常用的分类算法。虽然名字中有“回归”二字，但它实际上用于二分类问题（例如判断邮件是否为垃圾邮件、疾病是否存在等）。

本文将以通俗易懂的方式，从原理到代码实现，带你完整掌握逻辑回归的核心链条。

当然，本文是结合博主个人理解编写，如有错误，欢迎指正！

1. 从线性回归到逻辑回归

上一篇文章，我们介绍了机器学习最基础的线性回归

线性回归主要用于预测连续变量，例如房价、温度等。它的数学模型通常写作：

$y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n$

当我们已经掌握了线性回归的基本概念后，你可能会问：为什么还需要逻辑回归？

逻辑回归的核心在于分类问题。直接使用线性回归模型会存在两个问题：

预测结果可以超出合理的范围（例如预测概率大于1或小于0）。
线性模型本质上无法很好地反映类别之间的非线性边界。

为了解决这个问题，逻辑回归引入了一个非线性转换函数——Sigmoid 函数。

2. 数学原理

2.1 Sigmoid函数

逻辑回归的核心在于Sigmoid函数（也称为 logistic 函数）：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

其中，z 通常是特征的线性组合：

$z = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n \quad$

性质：

输出范围为 (0, 1)，自然适合做概率解释，可以直观地表示样本属于某个类别的概率。
当 z 很大时，σ(z) 接近1；当 z 很小时，σ(z) 接近0。
函数图形呈“S”型，这种平滑的过渡帮助模型捕捉类别的变化；对于极端的输入，输出趋近于 0 或 1，中间部分较为敏感，便于判断分类边界。

2.2 概率映射模型

在逻辑回归中，我们的假设函数定义为：

$h_\theta(x) = \sigma(z) = \frac{1}{1+e^{-z}}$

其中， $z = \theta^T x$ 。当我们计算出 $h_\theta(x)$ 后：

如果 $h_\theta(x) \geq 0.5$ ，通常认为样本属于正类（例如“是”）。
如果 $h_\theta(x) < 0.5$ ，则归为负类（例如“否”）。

这种阈值选择（0.5）可以根据具体问题进行调整，但在大多数情况下是默认的分界点。

2.3 代价函数与模型训练

为了训练逻辑回归模型，我们需要定义一个代价函数（Cost Function）来衡量预测值与真实值之间的误差。常用的代价函数是对数损失函数（Log Loss），也叫交叉熵损失函数，其形式为：

$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}\Big[y^{(i)}\log h_\theta(x^{(i)}) + \big(1-y^{(i)}\big)\log \big(1-h_\theta(x^{(i)})\big)\Big]$

这里：

m 是样本数量；
$y^{(i)}$ 是第 i 个样本的真实标签（0 或 1）；
$h_\theta(x^{(i)})$ 是模型预测的概率。

该代价函数有几个优点：

对于错误分类的样本，代价会非常高，从而推动模型调整参数来降低错误率；
数学上是凸函数，使用梯度下降（Gradient Descent）等优化算法能够较容易地找到全局最优解。

3. 实战示例：用Python实现二分类

下面是一个使用 Python 实现逻辑回归二分类的示例（以鸢尾花数据集中的两个类别为例）：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集，选取前两类（0和1）以及两个特征
iris = datasets.load_iris()
X = iris.data[iris.target != 2, :2]  # 取前两列特征
y = iris.target[iris.target != 2]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 使用sklearn实现逻辑回归
clf = LogisticRegression()
clf.fit(X_train, y_train)

# 生成网格以便绘制决策边界
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                     np.linspace(y_min, y_max, 200))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# 绘制决策边界和数据点
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, edgecolors='k', label='Train')
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='x', label='Test')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.title('Logistic Regression Decision Boundary')
plt.show()

在这段代码中，我们：