浅谈Logisitic Regression

最新推荐文章于 2023-02-25 18:18:23 发布

原创最新推荐文章于 2023-02-25 18:18:23 发布 · 830 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习-Logi

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文介绍了Logistic回归的基本原理及应用。通过引入sigmoid函数解决分类问题，并使用极大似然估计来确定模型参数。同时，文章对比了Logistic回归与线性回归的不同之处，并详细讲解了如何通过梯度上升算法来优化参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

浅谈Logisitic Regression

引言

这一篇呢主要是谈谈我自己对于Logisitic Regression的一些理解。这里呢，Regression虽然中文是回归的意思，但是Logisitic Regression可不是预测连续值的那个回归哦。它是主要用来分类的一种方法。（敲黑板）　这里的分类不仅仅可以进行二分类，多分类当然也是可以哒！只不过咱们进行一丢丢小的改进就ok啦！这个关于多分类的问题嘛，咱们后面再说哈，这里先以最简单的二分类为模型细细掰扯掰扯。

小tips：在学习Logisitic Regression回归之前，希望大家都已经对Linear　Regression有所了解哦。

正文
Now, let’s begin!
首先，我们来看一张图：
样本集

这是一个二维的数据集，每个样本拥有两个特征（x₁，x₂），下面我们的任务就是用Logisitic Regression将这两类样本点用类似这一条红线分类开来：
这里写图片描述

在Linear Regression中，我们预测一个连续值的方法是先提取样本的特征，如ｘ＝（x₀,x₁，x₂……x_n），ｎ属于正整数。然后训练每个特征的权重θ，使θ^T.x＝ｙ，ｙ即为预测的连续值结果。然而，这个连续的结果并不能直接用于分类，而我们的分类也必须用到数据集的各个特征，使之能够表征到分类模型中，那么怎么办呢？我们现在引入一个函数名为sigmoid函数：

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+ e^{-z}}$

这个函数来源于一种分布名为逻辑斯谛分布（logisitic　distribution）。关于这方面的知识，请参阅李航老师的《统计学习方法》，这里就不再深入讨论了。
$g(z)$ 的函数图象如下：
sigmoid函数图像
该函数为单调递增函数，定义域为整个实数集，值域为(0,1) 横轴越大，越趋近于１，相反，越趋近于０。
看到这儿的时候有没有猛然想起《信号与系统》里的单位跃迁函数呀？（恩，你很机智^-^）

sigmoid函数中的z，其实就是我们用类似于Linear Regression中的 $y=θ^Tx$ （只是形式相同啊喂），我们将其代入到 $g(z)$ 中就得到了：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{θ}(x)=g(θ^Tx)=\frac{1}{1+e^{-θ^Tx}}$

不难看出，输出的结果 $ｈ$ 是个属于(0,1)的数。我们假设分类标签为｛０,１｝，输出的标签为 $ｙ$ ，若 $h$ >0.5　则令 $y$ =1，即为正例；相反，若 $h$ <0.5　则令 $y$ =0，即 $y$ 为反例。如下图所示　这样我们就可以对上面那个样本集点的图进行分类啦！这里写图片描述

下面一个比较关键的问题就是如何让这个model的分类效果最好呢？
这个问题里包含了两个方面：１.如何选取各个特征 $x_i$ 的权重θ　　２.如何定义这个model的目标函数？
其实这两个问题是可以统一到一起的，我们先定义目标函数，然后利用最优化算法求解其权重参数θ。
在一般模型中，会采用MSE（最小误差平方和的准则函数）来作为目标函数，若我们在Logisitic Regression中采用如下目标函数 $J(θ)$ ：

C o s t (h θ (x (i)), y (i)) = 1 2 (h θ (x i) - y (i)) 2

$Cost(h_{θ}(x^{(i)}),y^{(i)})=\frac{1}{2}(h_{θ}(x^{i})-y^{(i)})^2$
Stanford的Andrew Ng老师说，这是一个关于θ的非凸函数，我们可能会得到如下图像：

所以，MSE就明显不适用于Logisitic Regression了。那我们怎么办呢？我们需要求得权重θ，那么也就是说我们需要估计θ，使θ最接近于实际值对吧？既然我们现在已经有了样本集了，那么……对！这不就是可以利用极大似然估计吗！下面的式子我们就信手拈来啦！
在这里假设类别标签为｛０,１｝，那么
$P (y = 1 | x; θ) = h θ (x)$ $P(y=1|x;θ)=h_{θ}(x)$ $P (y = 0 | x; θ) = 1 - h θ (x)$ $P(y=0|x;θ)=1-h_{θ}(x)$
这个分段函数我们可以整合成一个式子： $p (y | x; θ) = (h θ (x)) y (1 - (h θ (x)) 1 - y$ $p(y|x;θ)=(h_{θ}(x))^y(1-(h_{θ}(x))^{1-y}$
Obviously，对于一个样本集，可以得到其似然函数 $L(θ)$ :
$L (θ) = p (y ⃗ | X; θ)$ $L(θ)=p(\vec y|X;θ)$ $= \prod i = 1 m p (y (i) | x (i); θ)$ $=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};θ)$ $= \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)$ $=\prod_{i=1}^{m}(h_θ(x^{(i)}))^{y^{(i)}}(1-h_θ(x^{(i)}))^{1-y^{(i)}}$
将其转化为对数形式： $l (θ) = l o g L (θ) = \sum i = 1 m y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))$ $l(θ)=logL(θ)=\sum_{i=1}^{m}y^{(i)}logh_θ(x^{(i)})+(1-y^{(i)})log(1-h_θ(x^{(i)}))$
接下来我们求得这个对数似然函数的偏导，就可以为后面的最优化算法做铺垫啦！ $\partial l ( θ ) \partial ( θ j ) = \sum i = 1 m (y (i) - g (θ T x (i))) \cdot x (i) j$ $\frac {\partial l(θ)}{\partial(θ_j)}=\sum_{i=1}^{m}(y^{(i)}-g(θ^Tx^{(i)}))\cdot x_j^{(i)}$
有了这些条件之后，梯度上升算法已经饥渴难耐啦！(梯度上升算法可以求得 $l(θ)$ 的最大值，属于最优化算法中一种常用的方法。在Andrew Ng老师视频中，他将目标函数 $J(θ)$ 前加了”-“，使最小化目标函数，对应的，采用的应是梯度下降法。其实两者原理一样，只不过训练参数时一个是“+”，一个是“-”。关于梯度下降或者上升算法，希望不了解的同学看一下最优化方法方面的书籍哦，都会有介绍的。)
我们下面利用梯度上升算法开始训练权重参数θ：

Repeat until convergence{

$θ j : θ j + α \sum i = 1 m (y (i) - h θ (x (i))) x (i) j$ $θ_j:θ_j+\alpha\sum_{i=1}^{m}(y^{(i)}-h_θ(x^{(i)}))x_j^{(i)}$
}

这样，Logisitic Regression中的参数θ就训练出来啦！
但是注意！如果数据量很大的情况下，这种梯度算法就出问题了。因为每次更新都要遍历数据集，计算复杂度很高。所以每次用一个样本点更新权重的“随机梯度上升法”就更适用于数据量大的场景下。

随机梯度上升算法伪代码：
　　　所有回归系数初始化为１
　　　对数据集中每个样本
　　　　　　　　计算该样本的梯度
　　　　　　　　使用 $alpha×gradient$ 更新回归系数值
　　　返回回归系数值

但是再注意！等迭代次数多了以后会发现，回归系数会在一个稳定的数值上下震荡。这不难理解，产生这种现象的原因是存在一些不能正确分类的样本点（数据集并非线性可分），在每次迭代时会引发系数的剧烈改变。于是，我们再一次改进，使步长alpha随着迭代次数的增多变得越来越小，这样有利于回归系数值收敛，使收敛速度加快。

关于Logisitic Regression就先简单讲到这里啦，等后面其他的模型与之有联系的话，会再补充。如有错误和不正之处，恳请指正!

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

OhMyJayce

关注关注

1
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

Classification----logisitic regression

CSMrZ的博客

09-06 469

前言在学习和实践了线性回归模型后,我们终于来到了下一站——分类问题,分类问题中经典的算法称为逻辑回归. 逻辑回归模型引入给定一些样本以后,我们首先需要选用一个合适的样本估测函数去估计样本值,首先如果使用线性函数去模拟可以吗?现在想要预测肿瘤良性与肿瘤大小的关系,看下面这些样本在坐标系上的分布. 此时使用线性回归可以得到如下图形:...

sklearn实例-逻辑回归（Logisitic Regression）和随机梯度下降(SGDClassifier)全流程

张大千的博客

01-09 4766

简介线性分类器可以说是最为基本和常用的机器学习模型。尽管其受限于数据特征与分类目标的线性假设，我们仍然可以在科学研究与工程实践中把线性分类器的表现作为基准。本文使用的模型包括LogisticRegression和SGDClassifier。本文的数据来自UC Irvine Machine Learning Repository的癌症分类数据。代码实例废话不多说，上代码！ import n...

参与评论您还未登录，请先登录后发表或查看评论

logisitic regression

alexboy的专栏

11-06 177

http://hunch.net/~vw/ https://issues.apache.org/jira/browse/MAHOUT-228 http://blog.youkuaiyun.com/dcraw/article/details/6846599 http://www.win-vector.com/blog/2010/12/large-data-logistic-regression-w...

Logistic Regression(逻辑回归)详细讲解

Ares的专栏

01-10 4万+

Logistic Regression(逻辑回归)以前在学校学到Logistic Regression的时候，虽然最后会使用，但是对于许多地方有很多的疑惑，今天在这里详细梳理一下Logistic Regression的过程：Logistic Regression逻辑回归回归的思想 Logistic Regression形式损失函数最小化Einw E_invec w 梯度下降法总结回归的思想

逻辑回归（logisitic regression）

YYT

10-12 797

文章目录前言逻辑回归模型 &amp;amp;amp;amp;amp;amp;amp;nbsp;1.逻辑斯蒂分布 &amp;amp;amp;amp;amp;amp;amp;nbsp;2.二项逻辑斯蒂回归模型 &amp;amp;amp;amp;amp;amp;amp;nbsp;3.多项逻辑斯蒂回归模型优快云-markdown编辑器使用示例快捷键Markdown及扩展表格定义列表代码块自定义字体颜色(github中看不到颜色):删除线目录数学公式UML 图

逻辑回归(Logistic Regression)

futurewq的博客

08-08 5664

1.模型介绍 Logistic Regression虽然被称为回归，但其实实际上是分类模型，并常用于二分类。Logistic Regresion因其简单、可并行化、可解释强深受工业界喜爱。 Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。 1.1Logistic分布 Logistic分布是一种连续型的概率分布，其分布函数和密度函数分别为: 其中，μ表示位置参数，γ>0为形状参数。我们可以看下其图像特征： Logistic分布是由其位置和尺度参数定义

人工智能笔记2---线性回归&逻辑回归Linear Regression & Logistic Regression

qq_45348785的博客

02-25 300

人工智能线性回归逻辑回归

logistic regression完整代码演示

阿薇阿薇的博客

07-08 1080

#logistics regression完整代码 #三大件 import numpy as np import pandas as pd import matplotlib.pyplot as plt #%matplotlib inline #数据读取 import os pdData = pd.read_table("LogiReg_data.txt", sep=",",header=None, names=['Exam 1', 'Exam 2', 'Admitted']) #pdData.head

分类算法：Logistic regression详解与Matlab代码实现

weixin_38080060的博客

07-16 3776

机器学习的第一个算法也是最简单的算法是线性回归，对于输入x，模型输出的y是连续的，这也是回归问题(预测)和分类问题的区别，分类问题，二分类问题都是离散值，而回归问题。而对于为什么明明是分类算法却称作Logistic regression，个人理解是因为Logistic Function的输出是之间的实数，这与回归问题是如出一辙的。下面进行Logistic regression模型的详解，Logistic regression不仅能解决二分类问题，也能处理多分类问题，以二分类问题为例，多分类问题会在后面讲

逻辑回归（Logistic Regression）

热门推荐

tt丫的博客

05-11 9万+

逻辑回归是线性分类器（线性模型）—— 主要用于二分类问题【拓：如何判别一个模型是否为线性模型理论上分辨：线性模型是可以用曲线来拟合样本的，但是分类的决策边界一定是直线的数学表达上分辨：表达式中的系数w乘上自变量x（一个w系数影响一个自变量维度x）】（1）penalty：表示惩罚项（正则化类型）。字符串类型，取值为’l1’ 或者 ‘l2’，默认为’l2’。l1：向量中各元素绝对值的和，作用是产生少量的特征，而其他特征都是0，常用于特征选择；

Logistics回归系数解读

Math_is_hard的博客

03-09 1万+

Logistic回归虽然名字叫”回归” ，但却是一种分类学习方法。使用场景大概有两个：第一用来预测，第二寻找因变量的影响因素。一、从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2, x3, … , xn，其中y为连续变量，我们可以拟合一个线性方程： y =β0 +β1x1 +β2x2 +β3x3 +…+βnxn 并通过最小二乘法估计各个β系数的值。如果y为二分类变量，只能取值0或1，那么线性回归方程就会遇到困难: 方程右

多项logistic回归系数解释_（3）对一般Logistic模型系数的解释

weixin_34983902的博客

12-28 7240

Logit模型的理解首先要区分理解概率(probability)、发生比/几率(odds)、发生比之比/优势比(odds ratio)之间的区别。设想有一个二分变量Y记录了人们对一项决议的意见，Y=1表示支持某项决议，Y=0表示反对这项决议，对于人群总体来说，Y的均值用 μ 表示， μ 值就是支持的人占总人数的比例，也就是支持该决议的概率 P，而发生比 odds = P/(1-P)，其含义是支持...

逻辑回归---Logisitic Regression公式推导

05-05 623

周志华《机器学习》学习笔记-线性模型

yijia7590jfz的博客

05-09 489

周志华《机器学习》学习笔记文章目录周志华《机器学习》学习笔记第三章线性模型3.1 基本形式3.2 线性回归1 一元线性回归2 多元线性回归3 对数线性回归4 广义线性模型3.3 对数几率回归（逻辑回归）二分类问题（0、1）对数几率回归的优点3.4 线性判别分析3.5 多分类学习3.6 类别不平衡问题第三章线性模型 3.1 基本形式普通的线性回归，将所给的属性的取值回归到一条线上（实数集）函数形式：向量形式： 3.2 线性回归 (问题描述) 1 一元线性回归 2 多元线性回归 3 对

Logistic回归原理分析和实践

panfengblog

07-13 1148

Logistic回归原理分析和实践参考资料： 机器学习 周志华统计学习方法李航一些博客：logistic回归详解,详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解,逻辑回归（Logistic Regression）-牛顿法求解参数原理分析线性回归这里介绍Logisitic回归首先从线性回归讲起（logistic回归其实就是一种广义的线性回归）。线性模型（linear model）试图学得一个通过属性的线性组合来进行的预测的函数（假设给定d个属性，x=[x1

【西瓜书阅读笔记】03线性模型

Checkmate9949的博客

09-11 343

一、基本形式 1、问题描述 2、函数形式 3、向量形式二、线性回归 1、问题描述 2、目标函数 3、目标函数求解

logistic回归详解

Drug discovery

12-02 2万+

逻辑斯谛回归（logistic regression）是统计学习中的经典分类方法，虽然带有回归的字眼，但是该模型是一种分类算法，逻辑斯谛回归是一种线性分类器，针对的是线性可分问题。利用logistic回归进行分类的主要思想是：根据现有的数据对分类边界线建立回归公式，以此进行分类。这里的“回归”一词源于最佳拟合，表示要找到最佳拟合参数集，因此，logistic训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化方法，接下来我们都会讲到。一、Logistic回归函数： ...

机器学习：Logisitic回归

u014120554的专栏

10-24 2125

Logistic回归（logistic regression）是统计学习中经典的分类方法，其模型属于对数线性模型。1.Logistic分布（logistic distribution）什么是logistic分布？我们假设有一组变量X是连续随机变量，当X具有下列分布函数和密度函数时，我们就说X服从Logistic分布，分布函数：密度函数：式中，位置参数，为形状参数。logistic分的

logistic回归分析优点_Logistic回归——回归系数

weixin_39639260的博客

11-21 2121

回顾：当logistic回归模型能够较好地拟合数据时，我们便可以对模型的系数进行解释了，类似于线性回归系数。Logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化。在logistic回归系列（二）中，我们把logistic回归因变量转化成了比数对数后进行回归，简化了预测问题，有利于描述整个步骤背后的逻辑。然而，对于更常见的非线性所做的转化来说，自变量在logistic...

贝叶斯logisitic

最新发布

05-11

<think>好的，我现在需要回答用户关于贝叶斯与Logistic回归的实现方法的问题。首先，我得回顾一下用户提供的引用内容，看看有哪些信息可以利用。用户引用了四篇资料，其中前三篇涉及朴素贝叶斯和Logistic回归的概述、原理、项目案例以及代码实现，第四篇提到了测试结果和一些代码片段。用户的问题是想了解贝叶斯与Logistic回归在机器学习中的相关内容或实现方法。我需要将这两个算法分开解释，说明它们的原理、实现步骤以及可能的代码示例，并确保符合用户给出的格式要求，比如使用正确的中文回答，数学公式用$...$，独立公式用$$...$$，生成相关问题，并在引用处标注。首先，关于朴素贝叶斯。根据引用[1]和[3]，朴素贝叶斯是基于贝叶斯定理的分类方法，假设特征之间相互独立。实现步骤包括计算先验概率P(c_i)和条件概率P(w|c_i)，然后使用这些概率进行分类。需要提到拉普拉斯平滑，避免零概率问题。代码部分可以参考引用[3]中的trainNB0函数，但可能需要稍作调整，比如使用log转换来防止下溢。接下来是Logistic回归。引用[2]和[4]指出，Logistic回归通过sigmoid函数将线性回归的结果映射到(0,1)区间，用于分类。需要解释梯度下降法的参数更新过程，以及如何使用最大似然估计。代码示例可能包括梯度上升法的实现，如引用[4]中的gradAscent函数，以及如何绘制决策边界。需要注意两者的区别和联系：朴素贝叶斯是生成模型，基于概率分布；Logistic回归是判别模型，直接建模分类边界。在实现上，贝叶斯需要计算条件概率，而Logistic回归需要优化权重参数。在数学公式方面，贝叶斯分类器使用$P(c_i|w) = \frac{P(w|c_i)P(c_i)}{P(w)}$，而Logistic回归的sigmoid函数是$\sigma(z) = \frac{1}{1+e^{-z}}$。这些需要用独立公式格式，即$$...$$。然后需要生成相关问题，可能涉及两种方法的对比、应用场景、优化方法等，确保问题与内容相关且有助于用户进一步学习。最后，检查是否所有数学表达式都正确使用LaTeX格式，引用标记是否正确添加，回答结构是否清晰，分点说明。确保没有使用Markdown格式，代码块用三个反引号包裹，并标明语言。</think>### 一、贝叶斯分类与Logistic回归实现方法对比 #### 1. 朴素贝叶斯分类器 **核心公式**： $$ P(c_i|w) = \frac{P(w|c_i)P(c_i)}{P(w)} $$ 其中$w=(w_1,w_2,...,w_n)$为特征向量，$c_i$为类别标签。通过**拉普拉斯平滑**避免零概率问题[^3]。 **实现步骤**： 1. 计算每个类别的先验概率$P(c_i)=\frac{\text{类别i的文档数}}{\text{总文档数}}$ 2. 计算条件概率$P(w_j|c_i)=\frac{\text{特征w_j在类别i中出现的次数+1}}{\text{类别i总词数+特征维度}}$ 3. 预测时选择使$P(c_i)\prod P(w_j|c_i)$最大的类别 **Python代码示例**（基于词袋模型）： ```python import numpy as np def trainNB0(trainMatrix, trainCategory): numTrainDocs = len(trainMatrix) numWords = len(trainMatrix[0]) p1 = np.sum(trainCategory)/float(numTrainDocs) # 侮辱类概率 p0Num = np.ones(numWords) # 拉普拉斯平滑 p1Num = np.ones(numWords) p0Denom = 2.0 # 特征维度为2（侮辱/非侮辱） p1Denom = 2.0 for i in range(numTrainDocs): if trainCategory[i] == 1: p1Num += trainMatrix[i] p1Denom += np.sum(trainMatrix[i]) else: p0Num += trainMatrix[i] p0Denom += np.sum(trainMatrix[i]) p1Vect = np.log(p1Num/p1Denom) # 对数防止下溢 p0Vect = np.log(p0Num/p0Denom) return p0Vect, p1Vect, p1 ``` #### 2. Logistic回归 **核心公式**： - Sigmoid函数： $$ \sigma(z) = \frac{1}{1+e^{-z}} $$ - 权重更新规则（梯度上升）： $$ w := w + \alpha \nabla \ell(w) $$ 其中$\nabla \ell(w) = X^T(y - \sigma(Xw))$，$\alpha$为学习率[^2][^4] **实现步骤**： 1. 初始化权重向量$w$ 2. 迭代计算梯度$\nabla \ell(w)$ 3. 更新权重直至收敛 **Python代码示例**（梯度上升法）： ```python def sigmoid(z): return 1.0/(1+np.exp(-z)) def gradAscent(dataMat, labels, maxCycles=500): dataMatrix = np.mat(dataMat) labelMat = np.mat(labels).T m,n = dataMatrix.shape weights = np.ones((n,1)) for k in range(maxCycles): h = sigmoid(dataMatrix * weights) error = labelMat - h weights += dataMatrix.T * error # 矩阵运算加速 return weights ``` #### 3. 核心差异对比 | 维度 | 朴素贝叶斯 | Logistic回归 | |------------|------------------------------------|-------------------------------| | 模型类型 | 生成模型（估计联合分布） | 判别模型（直接建模决策边界） | | 假设条件 | 特征条件独立 | 无独立性假设 | | 数据需求 | 小样本即可工作 | 需要更多样本避免过拟合 | | 计算效率 | 训练快，预测$O(1)$ | 训练慢，预测$O(n)$ | | 适用场景 | 文本分类、垃圾邮件过滤[^1][^3] | 疾病预测、广告点击率预估[^2] |