线性回归&逻辑回归&最小二乘法&最大似然法

最新推荐文章于 2024-01-09 01:12:51 发布

原创最新推荐文章于 2024-01-09 01:12:51 发布 · 1.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#线性回归 #逻辑回归 #最大二乘法 #最大似然估计

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了线性回归和逻辑回归的核心概念，包括它们的目标函数、损失函数及其背后的数学原理。通过对比两种方法，解释了为何逻辑回归在处理二分类问题时采用特定的损失函数。

线性回归：

target function：

$f (x) = w x + b$ $f(x)=wx+b$

　
loss function：

最小二乘的角度：

$m i n \sum i = 0 N (y i - f (x i)) 2$ $min \sum_{i=0}^N(y_i-f(x_i))^2$

最大似然的角度：

$m a x \prod i = 0 N (1 2 π - - \sqrt σ e - ( y i - f ( x i ) ) 2 2 σ 2)$ $max\prod_{i=0}^N(\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(y_i-f(x_i))^2}{2\sigma^2}})$
$= m a x ln {\prod i = 0 N (1 2 π - - \sqrt σ e - ( y i - f ( x i ) ) 2 2 σ 2)}$ $=max\ln\{\prod_{i=0}^N(\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(y_i-f(x_i))^2}{2\sigma^2}})\}$
$= m a x \sum i = 0 N {ln (1 2 π - - \sqrt σ) + ln (e - ( y i - f ( x i ) ) 2 2 σ 2)}$ $=max\sum_{i=0}^N\{\ln{(\frac{1}{\sqrt {2\pi}\sigma})}+\ln{(e^{-\frac{(y_i-f(x_i))^2}{2\sigma^2}}})\}$
$= m a x \sum i = 0 N {ln (1 2 π - - \sqrt σ) + (- ( y i - f ( x i ) ) 2 2 σ 2)}$ $=max\sum_{i=0}^N\{\ln{(\frac{1}{\sqrt {2\pi}\sigma})}+(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\}$
$= N * ln (1 2 π - - \sqrt σ) + m a x \sum i = 0 N (- ( y i - f ( x i ) ) 2 2 σ 2)$ $=N*\ln{(\frac{1}{\sqrt {2\pi}\sigma})}+max\sum_{i=0}^N(-\frac{(y_i-f(x_i))^2}{2\sigma^2})$
$= N * ln (1 2 π - - \sqrt σ) + N 2 σ 2 m i n \sum i = 0 N (y i - f (x i)) 2$ $=N*\ln{(\frac{1}{\sqrt {2\pi}\sigma})}+\frac{N}{2\sigma^2}min\sum_{i=0}^N(y_i-f(x_i))^2$
$N*\ln{(\frac{1}{\sqrt {2\pi}\sigma})}$ 和 $\frac{N}{2\sigma^2}$ 都是常数，可以不看，最终的loss function化简结果为：
$m i n \sum i = 0 N (y i - f (x i)) 2$ $min\sum_{i=0}^N(y_i-f(x_i))^2$

　
无论是最小二乘法推导，还是从最大似然推导，得到的损失函数是相同的。

相同的原因在于：
最小二乘法遵循前提: $y_i$ 存在误差，而误差的分布满足以 $f(x)$ 为中心的正态分布。

最小二乘： $(y_i-f(x_i))^2∝(y_i-f(x_i))^2$
最大似然： $\ln{(\frac{1}{\sqrt {2\pi}\sigma}e^ {-\frac{(y_i-f(x_i))^2}{2\sigma^2}} )} ∝(y_i-f(x_i))^2$

PS：把 $max\prod_{i=0}^N(P_i)$ 转换为 $max\ln{\prod_{i=0}^N(P_i)}$ 这一步想法很巧妙。

逻辑回归：

在线性回归中，我们target function用 $f(x)=wx+b$ ，是因为 $y_i$ 满足线性分布， $y_i\subseteq R$ ,但是当在解决一个二分类问题/二型分布时， $y_i\subseteq \{0,1\}$ ，就不能在用 $f(x)=wx+b$ 来进行拟合。因为得到的预估结果 $f(x)\subseteq R$ ,预估范围与目标范围不匹配，同时误差不好定义。
所以，引入了sigmod函数，用于对线性得到的结果进行一次映射： $sigmod(x)=\frac{1}{1+e^{-x}}$ 。sigmod导数: $sigmod'(x)=singmod(x)*[1-sigmod(x)]$
所以我们定义target function：

$g (f (x)) = s i g m o d (f (x)) = 1 1 + e - f ( x ) = 1 1 + e - w x - b$ $g(f(x))=sigmod(f(x))=\frac{1}{1+e^{-f(x)}}=\frac{1}{1+e^{-wx-b}}$

　
引入sigmod后解决了区间的问题，但是loss function的定义又是一个问题。最快想到的就是类似线性回归中类似定义loss function：

$m i n \sum i = 0 N [y i - g (f (x i))] 2$ $min\sum_{i=0}^N[y_i-g(f(x_i))]^2$

　
这样定义其实是可以的，因为如果我们的预测准确性很高的话， $\lim (y_i-g(x_i)) \rightarrow 0$ ，则 $\sum_{i=0}^N(y_i-g(x_i))^2\rightarrow 0$ ，loss function达到最小值。

以上定义的loss function的最优解满足我们的期望“误差最小”，但是我们在求解 $w$ 最优解的过程中会出现问题，我们一般是使用“梯度下降”的方式寻找最优解。但“梯度下降”能找到最优解的前提是“函数是凸函数”。很遗憾这个loss function并不满足，详情如下:

“梯度下降”即：不断进行 $w=w-loss'(w)$ 运算，最终 $w$ 收敛到某个稳定值。此时我们认为loss function达到最小值。

进行一下模拟：

$l o s s^{'} (w) = \sum_{i = 0}^{N} 2 * [y_{i} - g (f (x_{i}))] * (- 1) * g_{f}^{'} (f (x)) * f_{w}^{'} (x_{i})$ $loss'(w)=\sum_{i=0}^N2*[y_i-g(f(x_i))]*(-1)*g'_f(f(x))*f'_w(x_i)$
$l o s s' (w) = \sum i = 0 N 2 * [y i - g (f (x i))] * (- 1) * g (f (x i)) * [1 - g (f (x i))] * x i$ $loss'(w)=\sum_{i=0}^N2*[y_i-g(f(x_i))]*(-1)*g(f(x_i))*[1-g(f(x_i))]*x_i$
$l o s s' (w) = \sum i = 0 N (- 2 x i) * [y i - g (f (x i))] * g (f (x i)) * [1 - g (f (x i))]$ $loss'(w)=\sum_{i=0}^N(-2x_i)*[y_i-g(f(x_i))]*g(f(x_i))*[1-g(f(x_i))]$
分类讨论:

$y_i=0$ 时， $x_i$ 对导数的贡献为:

$l o s s' (w) = (- 2 x i) * [0 - g (f (x i))] * g (f (x i)) * [1 - g (f (x i))]$ $loss'(w)=(-2x_i)*[0-g(f(x_i))]*g(f(x_i))*[1-g(f(x_i))]$
$l o s s' (w) = 2 x i * g (f (x i)) 2 * [1 - g (f (x i))]$ $loss'(w)=2x_i*g(f(x_i))^2*[1-g(f(x_i))]$

$y_i=1$ 时， $x_i$ 对导数的贡献为:

$l o s s' (w) = (- 2 x i) * [1 - g (f (x i))] * g (f (x i)) * [1 - g (f (x i))]$ $loss'(w)=(-2x_i)*[1-g(f(x_i))]*g(f(x_i))*[1-g(f(x_i))]$
$l o s s' (w) = (- 2 x i) * g (f (x i)) * [1 - g (f (x i))] 2$ $loss'(w)=(-2x_i)*g(f(x_i))*[1-g(f(x_i))]^2$

我们假设 $x_i>0$ (不考虑 $x_i$ 的影响)
以下讨论 $y_i=0$ 时的情况， $y_i=1$ 的情况类似。不在讨论。

$y_i=0$ 时， $loss'(w)—g(f(x))$ 关系曲线大致如图：

$loss'(w)—f(x)$ 关系曲线大致如图：

基于 $loss'(w)\_\_g(f(x))$ 的图像我们可以知道： $y_i=0$ 时， $g(f(x))$ 的值越靠近1或者越靠近0时的变化越来越小。所以可以评估 $loss(w)\_\_g(f(x))$ 图像大致如下(同样假设 $y_i=0$ )：

现在考虑假设情况：
$y_0=0,g(x_0)=0.98$
$y_1=1,g(x_1)=0.80$
此时我们对 $w$ 进行梯度下降， $g'_w(x_0)=h0，g'_w(x_1)=-h1，（设h0>0,h1>0）$
因为我们刚才讨论，g(f(x))在趋近于0或者1时导数越小，所以 $h0<h1$ ，也就是梯度下降方向：

$- l o s s' (w) = - g' w (x 0) - (- g' w (x 1)) = h 1 - h 0 > 0$ $-loss'(w)=-g'_w(x_0)-(-g'_w(x_1))=h1-h0>0$

　
我们发现梯度下降的方向是 $g'_w(x_1)$ 主导的，w正在朝着 $(-g'_w(x_1))$ 的方向变化，这将使得 $g(x_1)$ 得到优化，但代价是进一步牺牲 $g(x_0)$ 的准确性，因为 $w$ 正在朝着 $(-g'_w(x_0))$ 的反方向改变。
经过这样一步之后，可能结果变成：
$y_0=0,g(x_0)=0.99$
$y_1=1,g(x_1)=0.84$
更可怕的是梯度最终会稳定在 $-g'_w(x_0)=g'_w(x_1))$ 的时候。此时结果大概为：
$y_0=0,g(x_0)=0.9999$
$y_1=1,g(x_1)=0.999$

陷入了局部最优，失败。

分析一下错误的原因：
进行调节的过程中，每个数据 $x_i$ 对 $loss'(w)$ 的贡献值为 $([y_i-g(f(x_i))]^2)'$ ，我们对 $w$ 的调节是将每个数据 $x_i$ 的贡献(也就是导数)相加，所以导数的(绝对值)大小可以理解为表征自己偏离正确答案的差距，应该做到预测结果越偏离真实值，导数的绝对值越大。
显然上文中的loss function的导数并不是这样。比如 $y_i=0$ 时， $g(x_i)=0.7$ 时的导数的绝对值大于 $g(x_i)=0.9$ 处的导数的绝对值。说明loss function认为0.7处的改善比0.9处的改善更加迫切。当若干组数据提供的梯度方向不一致时，导数又错误的表述了该组数据“等待改变的迫切情况/偏离正确的程度”。最终导致梯度相加得到的结果是不准确的，收敛到局部最优。

那么怎么可以避免这种情况呢。就是当导数是单调的时候
比如在 $y_i=0时，loss'(w)\_\_g(f(x))$ 关系曲线如下图：

以上图为例。

$l o s s' (w) 是单调的$ $loss'(w)是单调的$
$\Rightarrow 若 g (f (x 1)) > g (f (x 2)), 则 l o s s (x 1) > l o s s (x 2)$ $\Rightarrow 若g(f(x_1))>g(f(x_2)),则loss(x_1)>loss(x_2)$
$\Rightarrow l o s s (x 1) + l o s s (x 2) < 2 * l o s s (x 1 + x 2 2)$ $\Rightarrow loss(x_1)+loss(x_2)<2*loss(\frac{x_1+x_2}{2})$
$\Rightarrow l o s s (w) 是凸函数$ $\Rightarrow loss(w)是凸函数$

　
所以我们的loss function 要满足2个条件：

1. $g(f(x_i))$ 越偏离 $y_i$ 时， $loss(w)$ 值越大

2. $g(f(x_i))$ 越偏离 $y_i$ 时， $loss'(w)$ 绝对值越大，其实等价于要求 $loss(w)$ 是一个凸函数

　
所以我们给出新的loss function，定义其为：

$m i n \sum i = 0 N [(1 - y i) * (- ln (1 - g (f (x i)))) + y i * (- ln g (f (x i)))]$ $min\sum_{i=0}^N[(1-y_i)*(-\ln (1-g(f(x_i))))+y_i*(-\ln g(f(x_i)))]$

　
此式的灵感由最大似然得到。
经过这样一个改进，在满足第一个条件的情况下，也让loss function满足了第二个条件。理由如下：

$y_i=0$ 时， $x_i$ 对loss function导数的贡献为:

$l o s s' (w) = (- ln (1 - g (f (x i))))'$ $loss'(w)=(-\ln (1-g(f(x_i))))'$
$l o s s' (w) = (- 1) * 1 1 - g ( f ( x i ) ) * (- 1) * g' f (f (x i)) * f w (x i)$ $loss'(w)=(-1)*\frac{1}{1-g(f(x_i))}*(-1)*g'_f(f(x_i))*f_w(x_i)$
$l o s s' (w) = 1 1 - g ( f ( x i ) ) * g (f (x i)) * [1 - g (f (x i))] * x i$ $loss'(w)=\frac{1}{1-g(f(x_i))}*g(f(x_i))*[1-g(f(x_i))]*x_i$
$l o s s' (w) = g (f (x i)) * x i$ $loss'(w)=g(f(x_i))*x_i$
$loss'(w)\_\_g(f(x))$ 是一个单调函数，且 $loss'(w)$ 越远离0，靠近1，其绝对值越大，满足条件。

$y_i=1$ 时， $x_i$ 对loss function导数的贡献为:

$l o s s' (w) = (- ln g (f (x i)))'$ $loss'(w)=(-\ln g(f(x_i)))'$
$l o s s' (w) = (- 1) * 1 g ( f ( x i ) ) * g' f (f (x i)) * f w (x i)$ $loss'(w)=(-1)*\frac{1}{g(f(x_i))}*g'_f(f(x_i))*f_w(x_i)$
$l o s s' (w) = (- 1) * 1 g ( f ( x i ) ) * g (f (x i)) * [1 - g (f (x i))] * x i$ $loss'(w)=(-1)*\frac{1}{g(f(x_i))}*g(f(x_i))*[1-g(f(x_i))]*x_i$
$l o s s' (w) = [g (f (x i)) - 1] * x i$ $loss'(w)=[g(f(x_i))-1]*x_i$
${loss'(w)\_\_g(f(x))}$ 是一个单调函数，且 $loss'(w)$ 越远离1，靠近0，其绝对值越大，满足条件。

　
综上所述，该loss function满足两个条件，为凸函数。同时 $y_i=0与y_i=1$ 两种情况下, $loss(w)\_\_g(f(x))$ ， $loss'(w)\_\_g(f(x))$ 两个图像左右对称，保证了不偏向0或者1中的某一个。

$S U C C E S S$ $SUCCESS~$

回过头我们在来评估下线性回归的loss function 为什么不会出现问题：

$l o s s = m i n \sum i = 0 N (y i - f (x i)) 2$ $loss=min \sum_{i=0}^N(y_i-f(x_i))^2$

$x_i$ 对loss function导数的贡献为:

$l o s s' (w) = 2 * (y i - f (x i)) * (- x i)$ $loss'(w)=2*(y_i-f(x_i))*(-x_i)$
可以看出如果 $f(x_i)$ 与 $y_i$ 差越大的话，也就是如果给出的评估与实际结果偏差越远，则loss’(w)绝对值越大。满足条件。

　
总结整个流程就是:
1.寻找loss function目前没有什么很好很通用的方法，所以一般用梯度下降算法。
2.梯度的最终方向是将数据 $x_i$ 的梯度相加，这就要求 $x_i$ 的梯度要以全局考虑， $taget(x_i)$ 越靠近 $y_i$ ，那 $x_i$ 你的梯度就越小，把主导机会留给其他 $taget(x_i)$ 远离 $y_i$ 的数据。即

$| t a r g e t (x i) - y i | ↑ ， | \nabla l o s s (x i) | ↑$ $|target(x_i)-y_i| \uparrow，|\nabla loss(x_i)| \uparrow$

PS：如果你能找到一个寻找到全局最优解的方法，且这个方法没有“凸函数”之类的前提要求。你就可以在逻辑回归中使用 $min\sum_{i=0}^N[y_i-g(f(x_i))]^2$ 作为loss function。