逻辑回归(一)基础理论

一、从线性回归到线性分类

在先前的线性回归(一)基础理论中详细介绍过线性回归,现在思考一个问题:能否用这个模型解决离散标签的预测?
虽然这个问题是显然的分类问题。但从模型的可行性角度来看,当然是可以的。下图给出了一个案例的拟合结果:模型在一堆离散点中找到了一条使得MSE最小的直线,从而可以对位置数据进行 y y y的预测,通过设置一个合理的 b i a s bias bias即可完成分类预测。但这个模型存在如下问题:
(1)线性回归对异常值非常敏感,易造成预测结果偏差;
(2)难以界定合适的 b i a s bias bias完成最终分类。
用线性回归解决分类问题
那我们能否对线性模型进行改良,使其能够解决分类问题呢?这就是我们今天的主角:逻辑回归

二、逻辑斯谛分布和逻辑回归

逻辑回归是基于线性回归的适用于二分类问题(经推广后也可用于多分类问题)的分类器。
由于历史原因,其名字中带有【回归】,但确是不折不扣的分类算法。其基本思想就是将线性回归结果作用在某种非线性函数上(即逻辑斯谛分布函数,和神经网络的层级单元做法一样),从而实现对结果的压缩和对分类的预测。
逻辑斯谛分布函数 σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1
逻辑回归分布
逻辑斯谛分布函数的导数 σ ′ ( z ) = e − z ( 1 + e − z ) 2 = ( e − z + 1 ) − 1 ( 1 + e − z ) 2 = 1 1 + e − z − 1 ( 1 + e − z ) 2 = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z)=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{(e^{-z}+1)-1}{(1+e^{-z})^2}=\frac{1}{1+e^{-z}}-\frac{1}{(1+e^{-z})^2}=\sigma(z)(1-\sigma(z)) σ(z)=(1+ez)2ez=(1+ez)2(ez+1)1=1+ez1(1+ez)21=σ(z)(1σ(z))
将逻辑斯谛分布函数中的 z z z用线性回归函数代入,即得到逻辑回归公式:
P ( y = 1 ) = 1 1 + e − θ T x P ( y = 0 ) = e − θ T x 1 + e − θ T x P(y=1)=\frac{1}{1+e^{-\boldsymbol \theta^T x}}\\P(y=0)=\frac{e^{-\boldsymbol \theta^T \boldsymbol x}}{1+e^{-\boldsymbol \theta^T x}} P(y=1)=1+eθTx1P(y=0)=1+eθTxeθTx
可见,线性回归在逻辑斯谛分布函数的作用下,成功将回归结果压缩到 ( 0 , 1 ) (0,1) (0,1)区间内,从而不仅解决了对异常值的敏感性(相反,其对异常值非常不敏感),而且可以方便地在 ( 0 , 1 ) (0,1) (0,1)区间选取某个 b i a s bias bias(一般比较两个概率大小,即bias取0.5)完成分类。

注意到两个概率的对数比,也称对数几率为: l o g P ( y = 0 ) P ( y = 1 ) = − θ T x log\frac{P(y=0)}{P(y=1)}=-\boldsymbol \theta^T \boldsymbol x logP(y=1)P(y=0)=θTx,即是线性回归结果。所以可以将逻辑回归视为对二分类概率对数几率的线性回归

三、逻辑回归的极大似然估计

上文虽然给出了逻辑回归公式,但其一方面是分段函数,另一方面难以找到合适的损失函数,因此还无法直接求解。
我们再仔细观察下逻辑回归公式,不难发现 P ( y = 0 ) + P ( y = 1 ) = 1 P(y=0)+P(y=1)=1

<think>好的,我现在需要回答用户关于逻辑回归理论基础的问题。用户提到了机器学习、数学原理,所以我得从这些方面入手。首先,我应该回顾逻辑回归基本概念,然后逐步深入到数学原理部分。 首先,逻辑回归虽然名字里有“回归”,但它其实是分类算法,常用于二分类。这点需要明确。用户可能知道线性回归,所以可以从线性回归过渡到逻辑回归。线性回归的输出范围是$(-\infty, +\infty)$,而逻辑回归通过个函数将其映射到$(0,1)$,这个函数就是sigmoid函数,也叫逻辑函数。这里需要解释为什么需要这样的映射,因为概率需要在0到1之间。 接下来是逻辑函数的具体形式。sigmoid函数的公式是$\sigma(z) = \frac{1}{1 + e^{-z}}$。这个函数的特性是当z趋近于正无穷时,函数值接近1;趋近于负无穷时接近0。这样就把线性组合的结果转换成了概率值。这里可能需要提到z就是线性回归的输出,即$z = \mathbf{w}^T \mathbf{x} + b$,其中$\mathbf{w}$是权重,b是偏置。 然后,逻辑回归模型的表达式可以写成$P(y=1|\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b)$。这表示在给定输入$\mathbf{x}$的情况下,属于类别1的概率。对应的,类别0的概率就是$1 - P(y=1|\mathbf{x})$。 接下来,需要建立损失函数。逻辑回归使用的是交叉熵损失函数,这可以通过极大似然估计推导出来。极大似然估计的思想是找到使得观测数据出现的概率最大的参数。对于二分类问题,假设样本独立,似然函数是各个样本概率的乘积。为了方便计算,通常取对数似然函数,将其转化为求和的形式。然后,通过取负对数似然,将最大化问题转化为最小化问题,这样就得到了交叉熵损失函数。 推导过程中,可能需要注意将y的取值(0或1)与概率表达式结合起来。例如,对于单个样本,概率可以写成$P(y|\mathbf{x}) = \hat{y}^y (1 - \hat{y})^{1 - y}$,其中$\hat{y}$是预测的概率。然后对数似然就是$y \log \hat{y} + (1 - y) \log (1 - \hat{y})$,取负数并求平均就得到损失函数。 然后,优化方法通常是梯度下降。需要计算损失函数对权重参数的梯度,然后迭代更新参数。这里可能需要写出梯度计算的公式,例如$\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)}$,其中m是样本数量。 此外,可能需要提到逻辑回归的假设条件,比如数据线性可分或近似线性可分,特征之间独立等,不过实际上逻辑回归对特征相关性的鲁棒性相对较好。 用户提供的引用中,引用[2]提到了线性回归函数和逻辑函数的关系,引用[3]讲到了损失函数的推导,这些都需要整合到回答中。同时,需要确保数学公式的正确性,比如使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,并单独成段。 在结构上,应该分点阐述:逻辑回归的定义、逻辑函数的作用、模型表达式、损失函数推导、优化方法。这样用户看起来会比较清晰。最后生成相关问题,可能涉及与其他算法的比较、多分类扩展、正则化应用等。 需要检查是否有遗漏的关键点,例如为什么不用均方误差作为损失函数(因为非凸优化问题),或者逻辑回归的决策边界是线性的等。这些可能对用户理解有帮助,但根据用户的问题,可能不需要太深入,但可以简要提到。 最后,确保回答符合系统级指令,所有数学表达式格式正确,引用标识正确添加。例如,在提到逻辑函数和损失函数推导时,加上引用[^2]和[^3]。</think>### 逻辑回归的理论基础 逻辑回归种经典的**分类算法**,尤其适用于二分类问题。其核心思想是通过**逻辑函数**(sigmoid函数)将线性回归的输出映射到概率空间$(0,1)$,并基于概率进行分类决策。以下是其数学原理和理论框架的详细说明: --- #### 1. **从线性回归到逻辑回归** 线性回归模型的形式为: $$ z = \mathbf{w}^T \mathbf{x} + b $$ 其中$\mathbf{w}$是权重向量,$b$是偏置项,输出$z$的范围为$(-\infty, +\infty)$[^2]。 为了将其转换为概率,逻辑回归引入**逻辑函数(sigmoid函数)**: $$ \sigma(z) = \frac{1}{1 + e^{-z}} $$ 该函数将$z$映射到$(0,1)$,表示样本属于正类的概率: $$ P(y=1|\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) $$ --- #### 2. **概率建模与似然函数** 假设样本独立,逻辑回归的似然函数可表示为: $$ L(\mathbf{w}) = \prod_{i=1}^m P(y^{(i)}|\mathbf{x}^{(i)}) = \prod_{i=1}^m \hat{y}^{(i)y^{(i)}} (1 - \hat{y}^{(i)})^{1 - y^{(i)}} $$ 其中$\hat{y}^{(i)} = \sigma(\mathbf{w}^T \mathbf{x}^{(i)} + b)$。 取对数似然函数并简化: $$ \log L(\mathbf{w}) = \sum_{i=1}^m \left[ y^{(i)} \log \hat{y}^{(i)} + (1 - y^{(i)}) \log (1 - \hat{y}^{(i)}) \right] $$ --- #### 3. **损失函数:交叉熵损失** 为方便优化,将最大化对数似然转化为最小化问题,定义**交叉熵损失函数**: $$ J(\mathbf{w}) = -\frac{1}{m} \log L(\mathbf{w}) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log \hat{y}^{(i)} + (1 - y^{(i)}) \log (1 - \hat{y}^{(i)}) \right] $$ 这损失函数能有效衡量预测概率与真实标签的差距,且是凸函数,便于梯度下降求解。 --- #### 4. **参数优化:梯度下降** 对权重$\mathbf{w}$求偏导,梯度计算公式为: $$ \frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)} $$ 通过迭代更新参数: $$ w_j := w_j - \alpha \frac{\partial J}{\partial w_j} $$ 其中$\alpha$为学习率,直至损失收敛。 --- #### 5. **模型特性与假设** - **决策边界**:逻辑回归的决策边界是线性的,对应超平面$\mathbf{w}^T \mathbf{x} + b = 0$。 - **输出解释**:输出为概率,可通过阈值(如0.5)转化为类别标签。 - **正则化**:为防止过拟合,可引入L1或L2正则化项。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值