LR的原理,损失函数,求解方法

LR的原理,损失函数,求解方法_背诵版

LR的原理

  逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数, g ( z ) = 1 1 + e − z {\rm{g}}(z) = \frac{1}{{1 + {e^{ - z}}}} g(z)=1+ez1,即:先把特征线性求和 z = w 0 + w 1 ∗ x 1 + . . . , + w n ∗ x n {\rm{z}} = {w_0} + {w_1}*{x_1} + ..., + {w_n}*{x_n} z=w0+w1x1+...,+wnxn,然后使用函数g(z)作为假设函数来预测。
  逻辑回归用来分类0/1问题,也就是预测结果属于0或者属于1的二值分类问题,有模型:
p ( y = 1 ∣ x ) = g ( w T x ) = 1 1 + e − w T x p(y = 1|x) = g({w^T}x) = \frac{1}{{1 + {e^{ - {w^T}x}}}} p(y=1x)=g(wTx)=1+ewTx1
p ( y = 0 ∣ x ) = 1 − g ( w T x ) = e − w T x 1 + e − w T x p(y = 0|x) = 1 - g({w^T}x) = \frac{{{e^{ - {w^T}x}}}}{{1 + {e^{ - {w^T}x}}}} p(y=0x)=1g(wTx)=1+ewTxewTx

损失函数

  对于训练数据集,特征数据 x = { x 1 , x 2 , . . . , x m } x = \{ {x_1},{x_2},...,{x_m}\} x={x1,x2,...,xm}和对应的分类标签 y = { y 1 , . . . , y m } {\rm{y}} = \{ {y_1},...,{y_m}\} y={y1,...,ym}。假设m个样本相互独立,那么它们的联合分布为各边缘分布的乘积,得到似然函数:
L ( w ) = ∏ i = 1 m g ( w T x ) y i ∗ ( 1 − g ( w T x ) ) 1 − y i L(w) = {\prod\limits_{i = 1}^m {g({w^T}x)} ^{{y_i}}}*{(1 - g({w^T}x))^{1 - {y_i}}} L(w)=i=1mg(wTx)yi(1g(wTx))1yi
取对数:
e ( w ) = ln ⁡ L ( w ) = ∑ i = 1 m y i ∗ ln ⁡ g ( w T x ) + ( 1 − y ) ln ⁡ ( 1 − g ( w T x ) ) e(w) = \ln L(w) = \sum\limits_{i = 1}^m {{y_i}*\ln g({w^T}x)} + (1 - y)\ln (1 - g({w^T}x)) e(w)=lnL(w)=i=1myilng(wTx)+(1y)ln(1g(wTx))

求解方法

  与线性回归类似,我们使用梯度上升的方法(类似与梯度下降方法),那么随机梯度上升更新规则为: w : = w + α ∗ ∇ w e ( w ) w: = w + \alpha *{\nabla _w}e(w) w:=w+αwe(w)

∂ ∂ w j e ( w ) = ∂ ∂ w j { ∑ i = 1 m { y i l n    g ( w T x i ) + ( 1 − y i ) l n    ( 1 − g ( w T x i ) ) }                            = ∂ ∂ w j ∑ i = 1 m [ y i g ( w T x i ) − 1 − y i 1 − g ( w T x i ) ] g ( w T x i ) ′                            = ∂ ∂ w j ∑ i = 1 m [ y i − g ( w T x i ) ] ( w T x i ) ′                            = ∑ i = 1 m [ y i − g ( w T x i ) ] w j \begin{array}{l} \frac{\partial }{{\partial {w_j}}}e(w) = \frac{\partial }{{\partial {w_j}}}\{ \sum\limits_{i = 1}^m {\{ {y_i}ln\;g({w^T}{x_i})} + (1 - {y_i})ln\;(1 - g({w^T}{x_i}))\} \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{\partial }{{\partial {w_j}}}\sum\limits_{i = 1}^m {[\frac{{{y_i}}}{{g({w^T}{x_i})}} - \frac{{1 - {y_i}}}{{1 - g({w^T}{x_i})}}]g({w^T}{x_i})'} \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{\partial }{{\partial {w_j}}}\sum\limits_{i = 1}^m {[{y_i} - g({w^T}{x_i})]({w^T}{x_i})'} \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = \sum\limits_{i = 1}^m {[{y_i} - g({w^T}{x_i})]{w_j}} \end{array} wje(w)=wj{i=1m{yilng(wTxi)+(1yi)ln(1g(wTxi))}=wji=1m[g(wTxi)yi1g(wTxi)1yi]g(wTxi)=wji=1m[yig(wTxi)](wTxi)=i=1m[yig(wTxi)]wj

<think>好的,我现在需要帮助用户理解线性回归中的损失函数,特别是LR损失函数的计算公式和含义。首先,我应该回忆一下线性回归的基本概念以及常见的损失函数类型。 根据用户提供的引用内容,引用[2]提到线性回归的损失函数一般使用MSE、RMSE、MAE等,而逻辑回归则不同。这里用户问的是线性回归(LR),所以需要专注于这些损失函数。引用[4]和[5]也提到了一元线性回归的代价函数,尤其是最小二乘法,这可能涉及到均方误差(MSE)。 首先,线性回归的目标是找到一条直线(或超平面)来最小化预测值和真实值之间的差异。损失函数就是用来量化这种差异的。最常见的损失函数应该是均方误差(MSE),也就是预测值与实际值差的平方的平均值。公式应该是这样的:$$L(w, b) = \frac{1}{2N}\sum_{i=1}^{N}(y_i - (wx_i + b))^2$$这里的w是权重,b是偏置,N是样本数量。可能还需要解释为什么用平方,比如平方可以放大较大误差,同时使函数可导,便于优化。 然后,引用[5]提到损失函数和优化方法,如正规方程和梯度下降。这时候需要解释损失函数如何被优化,比如梯度下降是通过计算损失函数对参数的梯度来逐步调整参数,而正规方程则是通过解析方法直接求解最优参数。 另外,用户可能对不同的损失函数之间的区别感兴趣,比如MSE和MAE的区别。MSE对异常值更敏感,而MAE更鲁棒。但线性回归通常使用MSE,因为它对应的最小二乘法有闭式解,并且在高斯噪声假设下是最优的。 接下来,需要检查是否有其他损失函数适用于线性回归,比如Huber损失,如引用[3]中提到的,Huber损失结合了MSE和MAE的优点,在误差较小时使用平方项,较大时使用线性项,从而减少对异常值的敏感性。不过这可能属于线性回归的变体或扩展,用户可能想知道标准LR使用的是哪一种,通常是MSE。 最后,需要将公式用正确的LaTeX格式呈现,确保独立公式使用$$...$$,行内公式用$...$。同时,生成相关问题时要覆盖损失函数的类型、优化方法、不同损失函数的比较,以及应用场景等。 总结回答的结构应该是:先介绍线性回归的目标,再引入损失函数的概念,详细讲解MSE的公式及其含义,讨论其他可能的损失函数如MAE和Huber,最后简要说明优化方法。确保每个公式都正确应用了LaTeX格式,并引用相关的参考文献。</think>### 线性回归(LR损失函数的计算公式与含义 #### 1. 线性回归的目标 线性回归通过构建线性模型 $y = wX + b$(其中 $w$ 为权重,$b$ 为偏置项)来拟合数据,目标是使预测值 $\hat{y}$ 与真实值 $y$ 之间的误差最小化[^4]。 #### 2. 损失函数的作用 损失函数量化预测值与真实值之间的差异。**线性回归最常用的损失函数是均方误差(Mean Squared Error, MSE)**,其计算公式为: $$L(w, b) = \frac{1}{2N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 = \frac{1}{2N} \sum_{i=1}^{N} (y_i - (w x_i + b))^2$$ - **公式含义**:对每个样本的预测误差取平方后求平均,除以 $2$ 是为了后续求导时简化计算[^5]。 - **特点**: - 平方项会放大较大误差的影响,使模型更关注异常值; - 函数光滑可导,便于使用梯度下降等优化方法[^2]。 #### 3. 其他损失函数(补充) - **平均绝对误差(MAE)**: $$L(w, b) = \frac{1}{N} \sum_{i=1}^{N} |y_i - (w x_i + b)|$$ 对异常值更鲁棒,但优化过程可能收敛较慢。 - **Huber损失**: 结合 MSE 和 MAE,在误差较小时用平方项,较大时用线性项,公式为: $$ L_{\delta}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{当 } |y - \hat{y}| \leq \delta \\ \delta |y - \hat{y}| - \frac{1}{2}\delta^2 & \text{其他情况} \end{cases} $$ 需手动设定阈值 $\delta$,常用于减少异常值干扰[^3]。 #### 4. 优化方法 - **正规方程**:直接通过解析解 $w = (X^T X)^{-1} X^T y$ 计算最优参数,适用于小规模数据。 - **梯度下降**:迭代调整参数,沿损失函数负梯度方向更新 $w$ 和 $b$,公式为: $$w := w - \alpha \frac{\partial L}{\partial w}, \quad b := b - \alpha \frac{\partial L}{\partial b}$$ 其中 $\alpha$ 为学习率,适用于大规模数据[^5]。 #### 5. 总结 线性回归的损失函数定义了模型优化的目标,**MSE 是最常用的选择**,其数学性质便于优化且符合高斯噪声假设。其他损失函数(如 MAE、Huber)可根据数据特性灵活选用[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值