面试（2）：LR逻辑回归与损失函数理解

最新推荐文章于 2024-09-03 09:15:00 发布

视界IT

最新推荐文章于 2024-09-03 09:15:00 发布

阅读量6.8k

点赞数 2

分类专栏：面试

面试专栏收录该内容

9 篇文章

订阅专栏

本文主要介绍了LR逻辑回归，它是一种监督学习分类算法，实现数据集到0、1的映射。详细推导了LR，选用Sigmoid函数将样本特征线性表示后输出分类概率。还阐述了求最大对数似然估计的原因及LR损失函数。此外，介绍了对数、平方、指数等多种损失函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LR逻辑回归与损失函数理解

1、LR的推导

LR逻辑回归是一种监督学习分类算法，其实现了给定数据集到0,1的一种映射。

给定数据集 $\mathrm{D}=\{(x 1, y 1),(x 2, y 2) \ldots(xm, ym)\}$ 其中 $(x i, y i)$ 表示第 $i$ 个样本，其中 $xi=\left(x i_{1}, x i_{2}, . . x i_{1 n}\right)$ 。即每个数据有 $n$ 个特征，类别 $y=\{0,1\}$ ，要求训练数据，将数据分成两类0或1。

假定 $x i$ 的 $n$ 个特征为线性关系，即： $\mathrm{z}=\theta \mathrm{x}+\mathrm{b}=\theta_{1} x_{1}+\theta_{1} x_{1}+\cdots+\theta_{n} x_{n}+\mathrm{b}$ 这里为了表示简洁，在数据样本 $x i$ 添加一个特征 $x 0 = 1$ ，将 $b$ 作为 $\theta_0$ 。则有： $\begin{array}{l}{\mathrm{z}=\theta \mathrm{x}+\mathrm{b}} \\ {=b * 1+\theta_{1} x_{1}+\theta_{1} x_{1}+\cdots+\theta_{n} x_{n}} \\ {=\theta_{0} x_{0}+\theta_{1} x_{1}+\theta_{1} x_{1}+\cdots+\theta_{n} x_{n}=\theta^{T} X}\end{array}$ 以上实现了用样本 $x i$ 的 $n$ 个特征来表示样本的表达式，现在需要寻找一个映射使得 $\mathrm{z}$ 可以转换为0或者1。
fig
可以使用阶跃函数，但是阶跃函数性质不好，不可导求解过于复杂，这里选用Sigmoid函数: $\quad \mathrm{y}(\mathrm{z})=\frac{1}{1+e^{-z}}$
fig
当输入一个Z时，y输出一个0–1之间的数，假定y>0.5则最终结果判为1， y<0.5最终结果为0。当y=0.8时，最终结果为1，y=0.8也表征了此时输出为1的概率，令： $h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T} X}}$ 将样本特征线性表示，然后输入到Sigmoid函数，输出结果在0–1之间，并且输出结果表征了分类结果为1的概率，即有： $\begin{array}{l}{\mathrm{P}(\mathrm{y}=1 | \mathrm{x} ; \theta)=h_{\theta}(x)} \\ {\mathrm{P}(\mathrm{y}=0 | \mathrm{x} ; \theta)=1-h_{\theta}(x)}\end{array}$ 即 $h_{\theta}(x)$ 输出刚好代表了结果为1的概率，因此p(y|x)表达式： $\mathrm{P}(\mathrm{y} | \mathrm{x} ; \theta)=h_{\theta}(x)^{y} *\left(1-h_{\theta}(x)\right)^{1-y}$ 假设样本独立且同分布，最大似然估计： $\mathrm{L}(\theta)=\prod_{i=1}^{i=m} \mathrm{P}(\mathrm{yi} | \mathrm{xi} ; \theta)=\prod_{i=1}^{i=m} h_{\theta}(x i)^{y i} *\left(1-h_{\theta}(x i)\right)^{1-y i}$ 进而求最大对数似然估计： $\mathcal{l}(\theta)=\log L(\theta)=\sum_{i=1}^{m}(y_i*\log h_{\theta}(xi)+(1-yi)*\log(1-h_{\theta}(xi)))$
1. 第一个问题，为什么要求最大对数似然估计而不是最大似然估计：

其中最重要的一点就是为什么取 $-\log$ 函数为损失函数，损失函数的本质就是，如果我们预测对了，能够不惩罚，如果预测错误，会导致损失函数变得很大，也就是惩罚较大，而 $-\log$ 函数在 $[0, 1]$ 之间正好符合这一点，另外还有一点需要说明，LR是一种广义的线性回归模型，平方损失函数对于 Sigmoid函数求导计算,无法保证是凸函数，在优化的过程中，求得的解有可能是局部最小，不是全局的最优值。
其二：取完对数之后，对我们的后续求导比较方便。
如果根据似然函数，直接计算，有两点缺点：(1)不利于后续的求导,(2)似然函数的计算会导致下溢出。

2. 第二个问题，LR的损失函数是什么： $\begin{array}{l}{J(\theta)=-\frac{1}{m} l(\theta)} {=-\frac{1}{m} * \sum_{i=1}^{m}\left(y i * \log h_{\theta}(x i)+(1-y i) * \log \left(1-h_{\theta}(x i)\right)\right)}\end{array}$ 损失函数表征预测值与真实值之间的差异程度，如果预测值与真实值越接近则损失函数应该越小。在此损失函数可以取为最大似然估计函数的相反数，其次除以m这一因子并不改变最终求导极值结果，通过除以m可以得到平均损失值，避免样本数量对于损失值的影响。

这里采用随机梯度下降，损失函数对于 $\theta_j$ 偏导：
fig
$\theta_j$ 的迭代式： $\theta_{j} :=\theta_{j}-\alpha * \frac{\partial J(\theta)}{\partial \theta_{j}}=\theta_{j}-\alpha \sum_{i=1}^{i=m}\left[\left(h_{\theta}(x i)-y i\right) * x i_{j}\right] j=0,1,2 \ldots n$

2、损失函数

损失函数：表征模型预测值与真实值的不一致程度。记为函数 $L (Y, f (X))$

结构风险函数 = 经验风险项 + 正则项，其中损失函数为经验风险项的重要组成部分。 $\Omega(\theta)=\sum_{i=1}^{i=m} L(y i, f(x i ; \theta))+\lambda \psi(\theta)$ 前半部分为经验风险项，后半部分为正则项。

2.1 对数损失函数：

$\mathrm{L}(\mathrm{Y}, \mathrm{P}(\mathrm{Y} | \mathrm{X}))=-\log P(Y | X)$ $P (Y ∣ X)$ 为样本为 $Y$ 的概率，数值越大说明预测值与真实值越接近即损失函数应该越小，当 $P (Y ∣ X)$ 越大的， $-\log P(Y|X)$ 越小，刚好符合损失函数的定义。
其中LR逻辑回归损失函数即为对数损失函数：
逻辑回归假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值最小化负的似然函数（即 $m a x F (y, f (x)) — - > m i n - [F (y, f (x))]$ )
即LR的损失函数为：负的对数损失函数： $\begin{array}{l}{J(\theta)=-\frac{1}{m} l(\theta)} {=-\frac{1}{m} * \sum_{i=1}^{i=m}\left(y i * \log h_{\theta}(x i)+(1-y i) * \log \left(1-h_{\theta}(x i)\right)\right.}\end{array}$

2.2 平方损失函数：

$\mathrm{L}(\mathrm{Y}, \mathrm{f}(\mathrm{X}))=\left(Y-f(X)^{2}\right.$ 线性回归模型使用了平方损失函数： $E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$ 在线性回归中，它假设样本和噪声都服从高斯分布（中心极限定理），最后通过极大似然估计（MLE）可以推导出最小二乘式子。

2.3 指数损失函数：

$\begin{aligned} \mathrm{L}(\mathrm{y}, \mathrm{f}(\mathrm{x})) &=e^{-y f(x)} \\ \mathrm{L}(\mathrm{y}, \mathrm{f}(\mathrm{x})) &=\frac{1}{n} \sum_{i=1}^{i=m} e^{-y i f(x i)} \end{aligned}$ AdaBoost中损失函数为： $\ell_{\exp }(H | \mathcal{D})=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right]$

2.4 Hinge损失函数：

$\mathrm{L}(\mathrm{y}, \mathrm{f}(\mathrm{x}))=\max (0, w(y))$ $f (x)$ 如果与 $y$ 一致，则损失函数为0，不一致则损失函数为 $w (y)$
SVM中损失函数即为Hinge损失函数： $\ell_{\text {hinge}}(z)=\max (0,1-z)$ $\min _{w, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \max \left(0,1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)$ 进而变形为： $\begin{aligned}\min _{w, b,\xi} \frac{1}{2}\|w\|^2+C\sum_{i=1}^m\xi_i\\s.t.\quad y_i(w^Tx_i+b)\geq1-\xi_i\\\xi_i\geq0,i=1,2,\dots,m\end{aligned}$