【算法原理】从模型假设看线性回归和逻辑回归

最新推荐文章于 2024-06-23 09:14:46 发布

原创最新推荐文章于 2024-06-23 09:14:46 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#linear regression #logistics regression #perceptron #模型假设

本文对比分析了线性回归、逻辑回归和感知器的模型假设，探讨了它们在回归和分类问题中的应用。线性回归通过最小化误差来估计参数，而逻辑回归在模型中引入sigmoid函数，解决二分类问题。

摘要

本文从算法的模型假设方面，对线性回归、逻辑回归和感知器做一下简要对比，说明了它们之间的联系。

符号约定

1）样本集合: $(x^i, y^i)\;(1 \leqslant i\leqslant m)$ ，其中 $i$ 表示一共 $m$ 个样本中的第 $i$ 个
2） $x^i=(x_{0}^{i},x_{1}^{i},x_{2}^{i},\cdots ,x_{n}^{i}) (x_{0}^{i}=1)$ ，表示输入向量，其中 $x_{0}^{i}=1$ 是为了统一格式
3） $y^i$ 为标量，代表第 $i$ 个样本对应的值（或分类问题中的label）
4） $\theta =(\theta _{0},\theta _{1},\theta _{2},\cdots ,\theta _{n})$ ，表示待求参数
5） $x \cdot \theta^{T}=\theta_0+\sum_{j=1}^{n}\theta _{j}x_j=0$ ，表示 $n$ 维空间中的一个超平面

问题描述

已知 $m$ 个样本 $(x^i, y^i)\;(1 \leqslant i\leqslant m)$ ，当 $x=x^0,x^0\notin (x^1,x^2,\cdots ,x^m)$ 时，我们想要估计出相对应的输出 $y^0$ 。根据 $y^0$ 取值范围的不同，问题分为两种情况。
1）当 $y^0$ 可以取无限多的连续值时，该问题称为回归问题
2）当 $y^0$ 只能取有限多的离散值时，该问题称为分类问题
P.S. 好吧，第2中情况称为分类，很好理解。可第1种情况，为啥叫回归？有啥意义？其实，没啥意义，完全可以忽略。但感兴趣的可以继续阅读参考文献[1]。

线性回归 Linear Regression

一、模型假设

y = h θ (x) = x \cdot θ T (1)

$y=h_{\theta }(x)=x \cdot \theta^{T}\;\;\;\;(1)$
即，我们假设输入和输出之间的关系，符合以上的模型。问题是，你为何要做这种假设呢？如果这个假设本身就是错的怎么办呢？
因为通过对样本集的观察和分析，直观上认为模型应该是这个样子的。当然如果假设本身就是错的，那么无论如何都学习不到很好的结果。这个时候只能修正模型假设，重新再来。

二、目标函数

L = 1 2 m \sum j = 1 m (x i \cdot θ T - y i) 2 (2)

$L=\frac{1}{2m}\sum_{j=1}^{m}(x^i \cdot \theta^{T}-y^i)^2\;\;\;\;(2)$
显然，目标函数的每一项，是模型预测结果与真实值直接的误差的平方。因此，目标函数刻画的是，某一个特定的模型（对应一个特定的

θ θ $\theta$ ）,在样本集上的整体表现。我们的目标是可以让目标函数取到最小值。求解最小值的过程，就是求解

θ θ $\theta$ 的过程。等号后面的

12m 1 2 m $\frac{1}{2m}$ 完全可以不加，因为

m m $m$ 并不是变量，加上的好处是可以让目标函数的值不会随着样本的增多而急剧增大。毕竟，相比与目标函数从几百亿减小，大家更想看到目标函数从几百减小吧。

三、目标函数的偏导

\frac{\partial L}{\partial θ_{j}} = \frac{1}{m} \sum_{i = 1}^{m} (y^{i} - h_{θ} (x^{i})) x_{j}^{i} (3)

$\frac{\partial L}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^{m}(y^i-h_{\theta }(x^i))x_{j}^{i}\;\;\;\;(3)$
这个很容易推导，就不解释了吧。

四、参数的迭代求解

θ j \leftarrow θ j + α \partial L \partial θ j (4)

$\theta_j\leftarrow \theta_j+\alpha \frac{\partial L}{\partial \theta_j}\;\;\;\;(4)$
在实际的求解过程中，因为样本可能非常多，每次迭代可以不对所有的样本求

∂L∂θj ∂ L ∂ θ j $\frac{\partial L}{\partial \theta_j}$ 。最极端的情况是只对一个样本求解，但通常情况下，是把样本分成若干个一组（称为一个batch），每次对一组样本求解。

逻辑回归 Logistic Regression

一、模型假设

h θ (x) = 1 1 + e - x \cdot θ T (5.1)

$h_{\theta }(x)=\frac{1}{1+e^{-x\cdot \theta^{T}}}\;\;\;\;(5.1)$

y = {10 h θ (x) ⩾ 0.5 h θ (x) < 0.5 (5.2)

$y=\left\{\begin{matrix} 1 & h_{\theta }(x)\geqslant 0.5\\ 0 & h_{\theta }(x)< 0.5 \end{matrix}\right.\;\;\;\;(5.2)$
这里

hθ(x) h θ ( x ) $h_{\theta }(x)$ 理解为

y=1 y = 1 $y=1$ 的概率，相应的

y=0 y = 0 $y=0$ 的概率就是

1−hθ(x) 1 − h θ ( x ) $1-h_{\theta }(x)$ 了。因为分类问题，是一个非黑即白的结果，所以当概率大于0.5（实际可调）时，我们预测结果是

y=1 y = 1 $y=1$ ，否则预测结果是

y=0 y = 0 $y=0$ 。

二、目标函数
不用说，目标函数肯定是(6.1)喽？理论上，完全没有问题；实际求解中，会有很大麻烦。因为这个目标函数关于 $\theta$ 是非凸的，对该目标求最小值，会变成一个非凸最优化问题。

L = 1 2 m \sum j = 1 m (1 1 + e - x \cdot θ T - y i) 2 (6.1)

$L=\frac{1}{2m}\sum_{j=1}^{m}(\frac{1}{1+e^{-x\cdot \theta^{T}}}-y^i)^2\;\;\;\;(6.1)$
没关系，我们换个思路。既然

hθ(x) h θ ( x ) $h_{\theta }(x)$ 是

y=1 y = 1 $y=1$ 的概率，

1−hθ(x) 1 − h θ ( x ) $1-h_{\theta }(x)$ 是

y=0 y = 0 $y=0$ 的概率，那么在该模型下所有样本都被正确分类的概率为

∏mi=1hθ(xi)yi(1−hθ(xi))1−yi ∏ i = 1 m h θ ( x i ) y i ( 1 − h θ ( x i ) ) 1 − y i $\prod_{i=1}^{m}h_{\theta}(x^i)^{y^i}(1-h_{\theta}(x^i))^{1-y^i}$ 。如果能把这个值最大化，是不是说明我们的模型非常合理呢？但这里有一个问题，因为概率都是介于0到1之间的小数，乘的越多该值越小，因此应该根据样本个数

m m $m$ 做适当修正。对该值先取

\frac{1}{m}

$\frac{1}{m}$ 次幂做适当修正再取对数，（取对数即为了计算方便，也为了把问题变成我们喜欢的凸优化问题），就成了著名的极大似然估计，如(6.2)。

L = 1 m l o g (\prod i = 1 m h θ (x i) y i (1 - h θ (x i)) 1 - y i) = 1 m \sum i = 0 m y i l o g (h θ (x i)) + (1 - y i) l o g (1 - h θ (x i)) (6.2)

$\begin{align*} L &= \frac{1}{m}log(\prod_{i=1}^{m}h_{\theta}(x^i)^{y^i}(1-h_{\theta}(x^i))^{1-y^i})\\ &= \frac{1}{m}\sum_{i=0}^{m}{y^i}log(h_{\theta}(x^i))+(1-{y^i})log(1-h_{\theta}(x^i)) \end{align*}\;\;\;\;(6.2)$

三、目标函数的偏导

\partial L \partial θ j = 1 m \sum i = 1 m (y i - h θ (x i)) x i j (7)

$\frac{\partial L}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^{m}(y^i-h_{\theta }(x^i))x_{j}^{i}\;\;\;\;(7)$
瓦特？这不是跟(3)式一毛一样？没错，所以逻辑回归跟线性回归可以看做是一回事，只是把线性回归的模型假设上再作用了一个 $sigmoid$ 函数而已。如果我们作用的不是一个 $sigmoid$ 函数，而是 $sign$ 函数（完全可以把 $x \theta^{T}\geqslant 0$ 当成一类， $x \theta^{T}< 0$ 当成另一类啊）会发生什么呢？结论是，这将变成另一种机器学习算法—感知器。（但感知器的目标函数和迭代方式，稍有不同。感知器的目标函数只计算被分错类的点，而其参数迭代则是每次选取一个分错类的点，计算梯度并更新参数。）

四、参数的迭代求解