逻辑回归-梯度下降训练

最新推荐文章于 2024-08-02 22:37:58 发布

转载最新推荐文章于 2024-08-02 22:37:58 发布 · 423 阅读

机器学习专栏收录该内容

22 篇文章

订阅专栏

在http://blog.youkuaiyun.com/bitcarmanlee/article/details/51165444中，我们已经对logistic回归的cost function做了完整的推导。如果是单个样本，其损失函数为：

c o s t (h θ (x), y) = - y i l o g (h θ (x)) - (1 - y i) l o g (1 - h θ (x))

1.梯度下降的原理

现在问题就转化为一个无约束优化问题，即我们找出最小的 θ ，使得cost function达到最小。而在无约束优化问题中，最重要最基本的方法莫过于梯度下降（Gradient Descent)了。
描述梯度下降的资料很多，这里我选取wiki百科上的一部分内容：

梯度下降法，基于这样的观察：如果实值函数 F(x) 在点 a 处可微且有定义，那么函数 F(x) 在 a 点沿着梯度相反的方向 −∇F(a) 下降最快。
因而，如果
b=a−γ∇F(a)
对于 γ>0 为一个够小数值时成立，那么 F(a)≥F(b) 。
考虑到这一点，我们可以从函数F的局部极小值的初始估计 x0 出发，并考虑如下序列 x0 , x1 , x2 , … 使得

xn+1=xn−γn∇F(xn), n≥0 。
因此可得到

F(x0)≥F(x1)≥F(x2)≥⋯ ,
如果顺利的话序列 (xn) 收敛到期望的极值。注意每次迭代步长 γ 可以改变。

同样是来自wiki的一张示意图，清楚地描述了梯度下降的过程：
这里写图片描述

2.对损失函数求导并得出迭代公式

令单个样本的损失函数为：

J (θ) = c o s t (h θ (x), y) = - y i l o g (h θ (x)) - (1 - y i) l o g (1 - h θ (x))

，则：

\partial \partial θ J (θ j) = - (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = - (y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x) = - (y (1 - g (θ T x)) - (1 - y) g (θ T x)) x j = (h θ (x) - y) x j

注意从第一步到第二步，用到了http://blog.youkuaiyun.com/bitcarmanlee/article/details/51165444里对logistic函数求导的结论。

如果对单个样本迭代，则表达式如下：

θ j : = θ j - α (h θ (x i) - y i) x i j

扩展到全体样本，表达式如下：

θ j : = θ j - \sum i m α (h θ (x i) - y i) x i j

3.迭代公式向量化（vectorization)

根据第二部分我们得到的最终 θ 相关的迭代公式为：

θ j : = θ j - \sum i m α (h θ (x i) - y i) x i j

如果按照此公式操作的话，每计算一个

θ 需要循环m次。为此，我们需要将迭代公式进行向量化。

首先我们将样本矩阵表示如下：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x (1) x (2) \dots x (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 \dots x (m) 0 x (1) 1 x (2) 1 \dots x (m) 1 \dots \dots \dots \dots x (1) n x (2) n \dots x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y (1) y (2) \dots y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

将要求的 θ 也表示成矩阵的形式：

θ = ⎡ ⎣ ⎢ ⎢ ⎢ θ 0 θ 1 \dots θ n ⎤ ⎦ ⎥ ⎥ ⎥

将 x⋅θ 的乘积记为A，有：

A = x \cdot θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 \dots x (m) 0 x (1) 1 x (2) 1 \dots x (m) 1 \dots \dots \dots \dots x (1) n x (2) n \dots x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \cdot ⎡ ⎣ ⎢ ⎢ ⎢ θ 0 θ 1 \dots θ m ⎤ ⎦ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 x (1) 0 θ 0 x (2) 0 \dots θ 0 x (m) 0 θ 1 x (1) 1 θ 1 x (2) 1 \dots θ 1 x (m) 1 \dots \dots \dots \dots θ n x (1) n θ n x (2) n \dots θ n x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

将 hθ(x)−y 记为E:

E = h θ (x) - y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ g (A 1) - y 1 g (A 2) - y 2 \dots g (A m) - y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ e 1 e 2 \dots e m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = g (A) - y

由上面的式子可以看出， g(A) 的参数是一个 m*1的矩阵，或者说是一个列向量。如果我们设计函数 g 的时候，支持传入一个列向量，并返回一个列向量，则 hθ(x)−y 可以一次计算得到结果。

回到我们的迭代公式，令j=0

θ 0 : = θ 0 - \sum i m α (h θ (x i) - y i) x i 0 = θ 0 - α \sum i m e (i) x (i) 0 = θ 0 - α \cdot (x (1) 0, x (2) 0, \dots, x (n) 0) \cdot E

对于 θj ，同理：

θ j : = θ j - α \cdot (x (1) j, x (2) j, \dots, x (n) j) \cdot E

将其写成矩阵的表达式：

⎡ ⎣ ⎢ ⎢ ⎢ θ 0 θ 1 \dots θ m ⎤ ⎦ ⎥ ⎥ ⎥ : = ⎡ ⎣ ⎢ ⎢ ⎢ θ 0 θ 1 \dots θ m ⎤ ⎦ ⎥ ⎥ ⎥ - α \cdot ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (1) 1 \dots x (1) n x (2) 0 x (2) 1 \dots x (2) n \dots \dots \dots \dots x (m) 0 x (m) 1 \dots x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \cdot E = θ - α \cdot x T \cdot E

所以最后的迭代公式为：

θ = θ - α \cdot x T \cdot E

4.几点需要注意的事项

1.x的矩阵表示方式里，上边的范围是m,表示样本的数量，下边的范围是n，表示每个样本变量的维度。整个样本矩阵的大小是m*n。
2.如何快速理解 θ 的迭代公式？我自己总结的一个小技巧：
θ 表示每一维特征的权重，所以它是n*1的矩阵。 xT 是n*m，E是m*1,这两个矩阵相乘，刚好得到一个n*1的矩阵，跟 θ 的大小是相吻合的！

5.批量梯度下降（Batch Gradient Descent）与随机梯度下降(Stochastic Gradient Descent SGD)

对于迭代公式

θ = θ - α \cdot x T \cdot E

最大的好处就是形式简单明了，直接将样本矩阵与残差矩阵带入迭代即可。而且这种方式是将所有的训练样本代入，最终所求得的解也是全局最优解，求解出来的参数将使损失函数最小。如果将所有样本矩阵带入进行计算，这就是所谓的批量梯度下降(BGD)。但在实际应用场景中，最大的问题就是样本矩阵可能非常大。比如大到放不进内存，比如大到进行一轮迭代需要的运算时间非常长，这个时候，批量梯度下降就不是那么好用了。这个时候，我们可以采用考虑随机梯度下降 (SGD)。
BGD是一次训练带入所有样本，SGD则是每来一次样本进行一次计算：