逻辑回归：从回归到分类的数学演变

原创于 2025-08-03 20:28:28 发布 · 804 阅读

18 ·

CC 4.0 BY-SA版权

##############阁下如果是抄袭，爬取文章作恶或误导他人的开发者,请阅读中国现行法律的相关处罚条例再动手，转载之前最好先验证#############

文章标签：

#Machine Learning # Classification # Logistic Regression

Java场景面试宝典专栏收录该内容

1071 篇文章

订阅专栏

📕我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）、《解密程序员的思维密码——沟通、演讲、思考的实践》作者、清华大学出版社签约作家、Java领域优质创作者、优快云博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。

📘拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、SpringBoot、SpringMVC、SpringCloud、Mybatis、Dubbo、Zookeeper)，消息中间件底层架构原理(RabbitMQ、RocketMQ、Kafka)、Redis缓存、MySQL关系型数据库、 ElasticSearch全文搜索、MongoDB非关系型数据库、Apache ShardingSphere分库分表读写分离、设计模式、领域驱动DDD、Kubernetes容器编排等。

📙不定期分享高并发、高可用、高性能、微服务、分布式、海量数据、性能调优、云原生、项目管理、产品思维、技术选型、架构设计、求职面试、副业思维、个人成长等内容。

Java程序员廖志伟

💡在这个美好的时刻，笔者不再啰嗦废话，现在毫不拖延地进入文章所要讨论的主题。接下来，我将为大家呈现正文内容。

优快云

🌟 逻辑回归：从线性回归到分类决策的演化

🍊 一、问题起源：线性回归为何不能直接用于分类？

🎉 1.1 回归 vs 分类的本质差异

线性回归是一种统计方法，旨在预测连续值，如房价。它通过拟合一条直线来最小化误差。然而，分类任务则不同，它旨在将数据分为不同的类别，如红色或绿色，输出的是离散的类别标签，如0或1。这种本质差异导致了线性回归无法直接应用于分类任务。

🎉 1.2 直接使用线性回归的缺陷

直接使用线性回归进行分类存在两个主要问题：

输出值无概率意义：如果输出值超出[0,1]范围，那么这个值就失去了概率的意义。
分段函数不可导：分段函数在转折点不可导，这意味着无法通过梯度下降来优化参数。

🍊 二、核心突破：Sigmoid函数如何连接回归与分类？

🎉 2.1 Sigmoid函数的数学魔力

Sigmoid函数是一种将任意实数映射到(0,1)区间的函数，其表达式为σ(z) = 1 / (1 + e^(-z))，其中z = θ^T * x。Sigmoid函数具有以下特点：

值域压缩：将任意实数z映射到(0,1)区间，输出可解释为概率。
可导性：导数σ'(z) = σ(z) * (1 - σ(z))，便于梯度下降优化。
决策规则：y^ = {1 if σ(z) ≥ 0.5, 0 otherwise}。

🎉 2.2 为何不用分段函数？

分段函数在转折点不可导，无法通过梯度下降求解参数θ。而Sigmoid函数提供平滑近似，保留可导性且逼近阶跃函数。

🍊 三、数学推导：从概率建模到参数优化

🎉 3.1 概率建模

正类概率：P(y=1|x) = σ(θ^T * x)
负类概率：P(y=0|x) = 1 - P(y=1|x)

🎉 3.2 损失函数：交叉熵（Cross-Entropy）

通过极大似然估计推导：L(θ) = ∏(i=1)^n P(y_i|x_i;θ) = ∏(i=1)^n y_i^(y_i) * (1 - y_i)^(1 - y_i)
取负对数似然得损失函数：J(θ) = -1/n * ∑(i=1)^n [y_i * ln(y^i) + (1 - y_i) * ln(1 - y^i)]
凸性保证梯度下降收敛到全局最优

🎉 3.3 梯度下降优化

梯度计算：∇θJ = 1/n * X^T * (σ(Xθ) - y)
参数更新：θ = θ - α * ∇θJ（α为学习率）

🍊 四、决策边界：线性与非线性拓展

🎉 4.1 线性决策边界

当σ(z) = 0.5时，z = 0，即θ^T * x = 0为分类超平面。
二维空间中为直线，三维空间中为平面。

🎉 4.2 非线性边界拓展

通过特征工程引入多项式项（如x1^2, x1 * x2）。
核函数（Kernel Trick）映射高维空间（需配合正则化防过拟合）。

🍊 五、代码实现：Python实战示例

import numpy as np

class LogisticRegression:
    def __init__(self, lr=0.01, n_iters=1000):
        self.lr = lr
        self.n_iters = n_iters
        self.weights = None
        self.bias = None

    def _sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)
        self.bias = 0

        for _ in range(self.n_iters):
            z = np.dot(X, self.weights) + self.bias
            y_pred = self._sigmoid(z)

            dw = (1 / n_samples) * np.dot(X.T, (y_pred - y))
            db = (1 / n_samples) * np.sum(y_pred - y)

            self.weights -= self.lr * dw
            self.bias -= self.lr * db

    def predict(self, X, threshold=0.5):
        z = np.dot(X, self.weights) + self.bias
        y_prob = self._sigmoid(z)
        return (y_prob >= threshold).astype(int)

🍊 六、工业应用与局限

🎉 6.1 场景

金融风控：用户违约概率预测
医疗诊断：疾病阳性概率判断
推荐系统：用户点击/购买行为预测

🎉 6.2 逻辑回归优势

可解释性强：权重系数直接反映特征重要性。
计算高效：适合实时系统。
对稀疏特征鲁棒性好。

🎉 6.3 局限性

仅适合线性可分数据：需特征工程或高阶拓展。
对异常值敏感：需数据清洗或正则化。
多分类需扩展：如OvR, Softmax。

🍊 七、结语：为什么逻辑回归是分类基石？

数学简洁性：线性组合 + 概率映射，奠定广义线性模型基础。
工程实用性：梯度下降高效求解，适合大规模数据。
可解释性：权重系数直接反映特征重要性（优于黑盒模型）。

“逻辑回归的智慧在于：用连续的数学工具解决离散的决策问题，这正是机器学习的艺术。” —— 算法设计者视角

🍊 技术描述补充

逻辑回归是一种广泛应用于分类问题的机器学习算法。它通过拟合一个逻辑函数来预测样本属于某个类别的概率。以下是逻辑回归的一些技术特点和应用：

🎉 技术特点

线性模型：逻辑回归假设数据之间存在线性关系，通过线性组合特征和权重来预测概率。
Sigmoid函数：使用Sigmoid函数将线性组合的结果映射到(0,1)区间，表示概率。
梯度下降：通过梯度下降算法优化模型参数，使模型预测更准确。
交叉熵损失函数：使用交叉熵损失函数来评估模型预测与真实标签之间的差异。

🎉 应用

分类问题：逻辑回归可以用于解决二分类问题，如垃圾邮件检测、信用评分等。
概率预测：逻辑回归可以预测样本属于某个类别的概率，如疾病诊断、用户行为预测等。
特征选择：逻辑回归的权重系数可以用来评估特征的重要性，从而进行特征选择。

特点	描述
线性模型	假设数据之间存在线性关系，通过线性组合特征和权重来预测概率。
Sigmoid函数	使用Sigmoid函数将线性组合的结果映射到(0,1)区间，表示概率。
梯度下降	通过梯度下降算法优化模型参数，使模型预测更准确。
交叉熵损失函数	使用交叉熵损失函数来评估模型预测与真实标签之间的差异。

优快云

博主分享

📥博主的人生感悟和目标

Java程序员廖志伟

📙经过多年在优快云创作上千篇文章的经验积累，我已经拥有了不错的写作技巧。同时，我还与清华大学出版社签下了四本书籍的合约，并将陆续出版。

《Java项目实战—深入理解大型互联网企业通用技术》基础篇的购书链接：https://item.jd.com/14152451.html
《Java项目实战—深入理解大型互联网企业通用技术》基础篇繁体字的购书链接：http://product.dangdang.com/11821397208.html
《Java项目实战—深入理解大型互联网企业通用技术》进阶篇的购书链接：https://item.jd.com/14616418.html
《Java项目实战—深入理解大型互联网企业通用技术》架构篇待上架
《解密程序员的思维密码--沟通、演讲、思考的实践》购书链接：https://item.jd.com/15096040.html

面试备战资料

八股文备战

场景	描述	链接
时间充裕（25万字）	Java知识点大全（高频面试题）	Java知识点大全
时间紧急（15万字）	Java高级开发高频面试题	Java高级开发高频面试题

理论知识专题（图文并茂，字数过万）

技术栈	链接
RocketMQ	RocketMQ详解
Kafka	Kafka详解
RabbitMQ	RabbitMQ详解
MongoDB	MongoDB详解
ElasticSearch	ElasticSearch详解
Zookeeper	Zookeeper详解
Redis	Redis详解
MySQL	MySQL详解
JVM	JVM详解

集群部署（图文并茂，字数过万）

技术栈	部署架构	链接
MySQL	使用Docker-Compose部署MySQL一主二从半同步复制高可用MHA集群	Docker-Compose部署教程
Redis	三主三从集群（三种方式部署/18个节点的Redis Cluster模式）	三种部署方式教程
RocketMQ	DLedger高可用集群（9节点）	部署指南
Nacos+Nginx	集群+负载均衡（9节点）	Docker部署方案
Kubernetes	容器编排安装	最全安装教程