白话斯坦福机器学习课程-CS229 - 牛顿方法

原创已于 2022-06-22 15:09:57 修改 · 330 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#牛顿方法 #CS229 #吴恩达 #机器学习 #斯坦福

于 2018-11-30 00:37:59 首次发布

Python 同时被 3 个专栏收录

10 篇文章

订阅专栏

Machine Learning

6 篇文章

订阅专栏

机器学习

4 篇文章

订阅专栏

这篇博客介绍了斯坦福大学机器学习课程CS229中的牛顿方法及其在Logistic Regression中的应用。文章详细阐述了牛顿方法的基本原理和优势，包括二次收敛特性。此外，还探讨了指数分布族，特别是伯努利分布和高斯分布作为指数分布的特例，以及如何将这些分布用于广义线性模型，如Logistic Regression和线性回归。最后，提到了多项式分布和softmax函数在多分类问题中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要内容：

logistic Regression，牛顿方法。
指数分布族（exponential family）
广义线性模型（GLMs：Generalized Linear Models）

1. 回归上一篇：

上一篇讲了 Logistic Regression 模型，它是一个分类算法，模型表示为： $\theta) = h_\theta(x)$ ，其中 $hθ(x)h_\theta(x)$ 表示为： $hθ(x)=g(θTx)=11+e−θTxh_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^{T}x}}$ 。其对数似然率表示为： $l(θ)=logL(θ)=∑i=1my(i)logh(x(i))+(1−y(i))log(1−h(x(i)))l(\theta) = log L(\theta) = \sum_{i=1}^m y^{(i)} log h(x^{(i)}) + (1 - y^{(i)}) log (1 - h(x^{(i)}))$ ，对它进行求导：在这里插入图片描述
，使用梯度上升的规则来进行极大似然估计，得出 Logistic Regression 中的参数 $θ\theta$ ： $θj:=θj+α(y(i)−hθ(x(i)))xj(i)\theta_j := \theta_j + \alpha (y^{(i)} - h_\theta(x^{(i)})) x_j^{(i)}$ ，这里使用梯度上升的规则，即一次更新只使用一个训练样本。

2. 牛顿方法：

它是用来进行模型拟合的算法，对 Logistic Regression 进行拟合，而且运行速度比梯度上升算法快。

2.1 描述牛顿方法：

假设函数 $f(θ)f(\theta)$ ，为了找到 $θ\theta$ ，使得 $f(θ)=0f(\theta) = 0$ 。思考问题，并将问题演化为算法，用极大似然估计的模型对这个函数进行拟合，如图表示，其演算过程：在这里插入图片描述

解释：先初始化参数 $θ\theta$ (图上横轴)，记作 $θ(0)\theta^{(0)}$ ，牛顿方法在这点运行，并在这点上对 $f$ 函数求值，再计算这点上的导数。之后对这一点上的 $f$ 值进行线性逼近，作这点上的切线，交于 $x$ 轴，标记为 $θ(1)\theta^{(1)}$ 。同样，在牛顿方法下一次迭代时，在 $θ(1)\theta^{(1)}$ 上做同样的事情。

推出： $θ(1)=θ(0)−f(θ(0))f′(θ(0))\theta^{(1)} = \theta^{(0)} - \frac{f(\theta^{(0)})}{f^{'}(\theta^{(0)})}$ 。更一般的说，对于牛顿方法的一次迭代有： $\theta^{(t + 1)} = \theta^{(t)} - \frac{f(\theta^{(t)})}{f^{'}(\theta^{(t)})}$ 。对于上面这个算法来说，它能找到一个 $θ\theta$ ，使得 $f(θ)=0f(\theta) = 0$ 。同理，采用对数似然率，使函数最大化来求值。假设函数 $l(θ)l(\theta)$ ，要使它最大化，令导数值为0，即需要找到一个点，使导数值为0，则表示为： $\theta^{(t + 1)} = \theta^{(t)} - \frac{l^{'}(\theta^{(t)})}{l^{''}(\theta^{(t)})}$ 。这个式子一定能找到一个局部最优值使函数最大化。

实际上，牛顿方法是一个收敛速度快的算法，收敛速度术语称为：二次收敛。即它的每一次迭代都会使函数的解的有效数字的数目加倍，且不考虑常量因子，如：一次迭代中，函数解距离最优解还差 0.01，误差即即为 0.01，一次迭代过后，误差的量级编程 0.001的次方，以此类推；这样的性质只有当函数解距离最优解的值足够近时才会出现；但由于常熟因子或其他因素可能会使得收敛速度减慢。

算法的一般化表示为：
$θ(t+1)=θ(t)−H−1∇θl\theta^{(t +1)} = \theta^{(t)} - H^{-1} \nabla_\theta l$ ， $∇θl\nabla_\theta l$ 是目标函数的梯度， $H^{-1}$ 称为 Hessian 矩阵， $H_{ij}$ 表示为一个二阶导数，表示为：
$Hij=∂2l(θ)∂θi∂θjH_{ij} = \frac{\partial^{2}l(\theta)}{\partial\theta_{i}\partial\theta_{j}}$

对于 Logistic Regression，若使用特征的数目及训练样本的数量合理时，运行牛顿算法，会发现算法收敛快。一般会执行十几次迭代，与梯度上升对比，收敛所需次数明显更少。但与批量梯度上升比起来，其缺点是每次迭代都需要重新计算一次 Hessian 矩阵 的逆，尤其是在处理的问题中包含大量特征时，Hessian 矩阵 会花费代价较大。若规模小，特征较合理时，使用方便。

3. 算法回归总结：

回归总结目前为止的两个算法的由来；

3.1 Linear Regression：

它是对 $P(y∣x;θ)P(y|x;\theta)$ 进行建模， $y \in R (代表实数)$ ，并假设 $y$ 满足高斯分布，之后得到了基于最小二乘法的线性回归。

3.2 Logistic Regression：

它是对于一个分类问题， $y ∈ \{0,1\}$ ，值为自然的 0 到 1 之间的分布（伯努利分布：可以直接取两个值的随机变量进行建模），之后得到 Logistic Regression 。在这里产生某些问题，如对于Logistic Regression 有这个函数，sigmoid：
$\frac{1}{1 + e^{-z}}$ ， sigmoid 是如果得到的？事实证明（我也不知道）， sigmoid 函数是一个可以引出 Logistic Regression 的最为自然的选择。下面的内容是以上面俩算法为例，并说明它们是一类更广泛的算法的特例，这种类型的算法称为 广义线性模型，如果将它们看成上面的sigmoid这类算法的特例，则 sigmoid的算法形式就很容易得到，具体看下面内容。

3.3 伯努利分布：

假设一组只能取 0 或 1的随机数据。使用伯努利分布对随机变量建模，变量以 $ϕ\phi$ 为参数，记作 $Bernouli(ϕ)Bernouli(\phi)$ ，那么对于伯努利分布有： $1;\phi) = \phi (表示为伯努利分布中的参数 \phi指定了 y=1的概率)$ ，当改变 $θ\theta$ 时，得到不同的伯努利分布。当改变 $p h i$ 时，得到关于 $y$ 的不同的概率分布，它对于 $y = 1$ 这一概率事件有不同的概率。在这里是统一假设当改变 $p h i$ 时，得到的都是同一类的概率分布。

3.4 高斯分布

表示为：? ~ $μ, σ^{(2)})$ ，当改变均值 $μ$ 时，得到不同的高斯分布。这里同上一样，都将假设视为一类或一组概率分布。

以上两类分布都是一类分布的特例，即指数分布。一般说一类概率分布，如：改变 $ϕ\phi$ 值得到伯努利分布。所以说某些概率分布（术语指指数分布族），并假设它的表现形式为：
$−a(η))p(y;\eta) = b(y) \ exp(\eta^{T}T(y) \ - a(\eta))$

$η\eta$ (多数时候为一个实数)，意思是：自然参数。
$T (y)$ ：充分统计量，可以当做 $T (y) = y$ 。

假设选定一种函数的形式，如：固定 $a 、 b 、 T$ 三参数，那整个公式就定义了一个概率分布的集合，以 $η\eta$ 为参数，定义了一类的概率分布。对于一组给定的 $a 、 b 、 T$ ，改变 $η\eta$ ，会得到一组不同的概率分布。

3.5 伯努利分布和高斯分布都是指数分布的特例：

即表示为可以选取特定形式的 $a 、 b 、 T$ ，使某些概率分布的表示公式变成伯努利分布或高斯分布的形式，同时改变 $η\eta$ 会得到均值不同的伯努利分布或得到均值不同的高斯分布。

3.5.1 伯努利分布是指数分布族的特例：

它以 $ϕ\phi$ 为参数，并有
$指定了y=1的概率)P(y=1;\phi) = \phi \ (表示伯努利分布中的参数\phi \ 指定了 y=1 的概率)$ 。目标是选取 $a 、 b 、 T$ ，使得指数分布族的表现形式等同于伯努利分布的公式。由于它是针对 $y$ 为 0 或 1 进行的建模，则假设: $P(y;ϕ)=ϕy(1−ϕ)1−y，yϵ[0,1]P(y;\phi) = \phi^{y}(1 - \phi)^{1-y}，y \epsilon [0,1]$ 将其对数作为指数（先取对数，再作为指数），化解的： $\ \phi^{y}(1-\phi)^{1-y}) \\. .. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =exp(ylog \ \phi + (1 -y)log \ (1- \phi)) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =exp((log (\ \frac{\phi}{1 - \phi})) \ y + log(1 - \phi)$

$(\ \frac{\phi}{1 - \phi})$ :：为 $η\eta$
$y$ ：表示为 $T (y)$
$log(1−ϕ)log(1-\phi)$ ：表示为 $−a(η)-a(\eta)$
$b (y)$ ：为1，这里不考虑进来

由已知： $(\ \frac{\phi}{1 - \phi})$ :：为 $η\eta$ ，则有 $ϕ=11+e(−η)\phi = \frac{1}{1+e^{(-\eta)}}$ 这里得到了Logistic Regression 的函数。

总结：先得到一组函数 $a 、 b 、 T$ ，之后指数分布族的表现形式就变成了伯努利分布的表现形式或者说变成了伯努利分布的概率质量函数，自然参数 $η\eta$ 与伯努利分布的原始参数之间存在特定关系： $η=log(ϕ1−ϕ)\eta = log (\frac{\phi}{1-\phi})$ 最终，以伯努利分布为例子，写成指数分布的形式。

3.5.2 高斯分布是指数分布族的特例：

它是以 ? ~ $μ, σ^{(2)})(μ 为均值，σ^{(2)}为方差的正态分布)$ 。上一篇记录的是，当利用极大似然估计推导最小二乘的参数时，参数 $σ^{(2)}$ 不管是什么都会得到同样的参数，所以这里讲其设置为 1。它实际上仅仅是变量 $y$ 的比例因子。那么高斯密度函数表示为：
在这里插入图片描述

$(\frac{1}{\sqrt2π}) exp(\frac{−y^{(2)}}{2})$
$μ = η$
$T (y) = y$
$\frac{μ^{(2)}}{2} = \frac{η ^{(2)}}{2}$

所以有这样的一组 $a 、 b 、 T$ 函数，将高斯概率密度函数表示成了指数分布族的表现形式，这里有 $μ = η$ ，那么表示高斯分布的均值是指数分布族的自然参数。

总结：高斯分布或者说正太分布都是可以写成指数分布族的形式。随机变量是一般化的高斯随机变量，这里的变量是一个多维向量。多元正态分布、多项式也属于指数分布族。伯努利分布也属于指数分布族，它用来对 0，1 问题进行建模，即只能有两个结果。而多项式分布用来对有 k 个结果的事件进行建模。而泊松分布通常用来对计数的过程进行建模，如，一个样本中，放射性衰变的数目或者网站的访问数量，它同样属于指数分布族。伽马分布和指数分布也属于指数分布族，它俩考虑的是证书分布，经常被用来对间隔进行建模，如：在公车站等车，可能会问“下一辆车可能什么时候到？”，通常下用伽马分布或指数分布进行建模。

3.6 选定了某个指数分布族（如：高斯分布、伯努利分布），来推导出广义线性模型：

下面是展示三个假设，或者称为决策设计，它们能帮助生成广义线性模型：

$x;\theta$ ，给定输入 $x$ 和参数 $θ\theta$ 。假设变量 $y$ 或输出 $y$ 或者说正在试图预测的响应变量 $y$ ，属于指数分布族，以 $η\eta$ 作为自然参数，它可能以某种方式依赖 $x$ 。意味着选取一些函数 $a 、 b 、 T$ 使得 $y$ 在给定 $x$ 以 $θ\theta$ 为参数下的条件概率分布属于指数分布族。
给定 $x$ ，目标是输出 $\ [T(y) | x]$ ，如：给定一些样本特征，会得到一组特征。比如是否占有一定的比例是否售出商品、有多少人连接到个人网站。这里假设学习问题的目标是估计在某一天访问个人网站的人数的期望。假设表示为： $\ [T(y) | x]$ 。目标是让学习算法的假设输出 $\ [y | x]$ ， $T (y) = y$ 。
这里的假设是决策设计；假设 $ηi=θiT)\eta = \theta^{T}x \ (if \ \eta \ is \ vector-valued, \ \eta_i = \theta_{i}^{T})$ ，这里的假设， $η\eta$ 必须为向量。 $η\eta$ 和输入特征之间的关系是线性的，它们之间的关系由 $θ\theta$ 确定。这个决策帮助导出广义线性模型，并得到漂亮的算法来拟合模型，如：泊松回归模型或者对伽马分布或者指数分布的输出结果进行回归。

3.6.1 伯努利分布来推导出广义线性模型：Logistic Regression

首先，它表示为： $x;\theta$ ~ ExpFamily( $η\eta$ )，指的是 $y$ 服从指数分布族，它可能是泊松分布、伽马分布等等，这李还没指定为哪种分布的指数分布族，以 $η\eta$ 为自然参数。那么对于伯努利分布来说，既然属于指数分布族，那么选取特定形式的函数 $a 、 b 、 T$ ，使指数分布族的表现形式变为伯努利分布的表现形式。对于任何给定的 $x$ 和 $θ\theta$ ，假设学习算法进行了一次预测，输出 $[y∣x;θ]h_{\theta}(x) = E \ [y|x;\theta]$ (根据上面假设2)， $y$ 只能取 0 或 1，那么它的期望值就为： $[y∣x;θ]=P(y=1∣x;θ)h_{\theta}(x) = E \ [y|x;\theta] = P(y = 1|x;\theta)$ ，即伯努利随机变量的期望值： $\ [y|x;\theta]$ ，恰好等于值为1的概率，得出 $y = 1$ 的值恰好等于 $ϕ\phi$ (它是伯努利分布的参数，根据定义，它是伯努利分布下，随机变量取值为 1 的概率)。根据之前的结论（关系为：当把伯努利分布写成指数分布族的形式时，得到了 $ϕ\phi$ 与 $η\eta$ 的关系），则有： $ϕ=11+e(−η)\phi = \frac{1}{1 + e^{(-\eta)}}$ ，所以有：
$hθ(x)=E[y∣x;θ]=P(y=1∣x;θ)=ϕ=1(1+e(−η))h_\theta(x) = E[y|x;\theta] = P(y=1|x;\theta) = \phi = \frac{1}{(1 + e^{(-η)} )}$ 得出 $y$ 的期望值，最后由假设 3（设计决策）得知， $η\eta$ 与 $θ\theta$ 是线性相关的，最终表示为：
$hθ(x)=E[y∣x;θ]=P(y=1∣x;θ)=ϕ=1(1+e(−η))=1(1+e(−θTx))h_\theta(x) = E[y|x;\theta] = P(y=1|x;\theta) = \phi = \frac{1}{(1 + e^{(-η)} )} = \frac{1}{(1 + e^{(-\theta^{T}x)} )}$ 同时有 $\frac{1}{(1 + e^{(-η)} )}$ $g(η)g(\eta)$ 是将自然参数 $η\eta$ 与 $y$ 的期望值联系起来。

$11+e(−η)\frac{1}{1 + e^{(-\eta)}}$ ： 正则响应函数
$g^{(-1)}$ ：正则关联函数

以上，为得到Logistic Regression算法的过程。总的来说为，有一个目标变量或者响应变量 $y$ ，它只会取 0 或 1，然后选择伯努利分布对其进行建模，最终得到一个广义的线性模型的过程。

3.6.2 高斯分布来推导出广义线性模型：linear Regression

这里Andrew没做解释，我也没去深究，留着下次遇见的时候补充吧。总的来说就是，有一个目标变量 $y$ ，服从高斯分布，最终得到Linear Regression，最后得出一般的最小二乘模型的一个广义线性模型的过程。

3.7 另一个广义线性模型：多项式分布

多项式分布在 $k$ 种可能的取值上的分布，表示为 $\epsilon \ \{1,2,3,.....,k\}$ 。多分类问题，需要用多项式分布进行建模。对于 Logistic Regression，如有某个训练集合，需要决定一条边界将两类数据分开。那么当增加一类数据过后（三分类情况），学习算法将以某种方式学习将三类数据分开。

多项式分布写成指数分布族的表现形式，它的参数有： $ϕ1\phi_1$ ， $ϕ2\phi_2$ ， $ϕ3\phi_3$ ， $ϕ4\phi_4$ ，…， $ϕk\phi_k$ ，这些参数表示的是概率；定义函数为：
$\phi_i$ 有： $ϕk=1−(ϕ1+ϕ2+.......+ϕk−1)\phi_k = 1 - (\phi_1 + \phi_2 + ....... + \phi_{k-1})$ 这里不将 $ϕk\phi_k$ 设为参数，设为一个值。所以上面就只定义了 $k - 1$ 个参数来对多项式分布进行参数化。

多项式中， $T (y)$ 不等于 $y$ 。如 $\epsilon \ 1,2,.......,k$ ，同时定义 $T (y)$ 为：
在这里插入图片描述

上述向量是 k -1 维向量。定义 $T (y)$ 目的是将多项式分布写成指数分布族的表现形式。引出 指数函数，表现为： $1\{True\} = 1$ (内条件为真，那么指数函数为1)，相反，条件为假，指数函数为 0 ，即 $1\{False\} = 0$
$T (y)$ 为一个向量， $y$ 取 $k$ 值中的一个，它是 $k$ 个向量中的一个，用 $T(y)_{i}$ 表示第 $i$ 个元素。即向量 $T (y)$ 的第 $i$ 个元素为1，表示为： $T(y)_{i} = 1\{y=i\}$ (向量的第 $i$ 个元素是否为1取决于是否等于 $i$ )。

3.7.1 写成指数分布族的表现形式与 softmax函数：

定义 $\phi_{1}^{1\{y=1\}} \cdot \ \phi_{2}^{1\{y=2\}} \cdots \ \cdots \ \phi_{k}^{1\{y=k\}}$ $ϕk\phi_{k}$ 不是参数，它等于请看上面，最终表示为：
在这里插入图片描述
同时有：

$η\eta$ 为 $k - 1$ 维。再结合之前的 $T (y)$ 定义，通过上图的方式选取 $η、a、b\eta、a、b$ ，将概率分布从多项式的形式转换成了指数分布的形式。

上面把 $η\eta$ 定义成了多项式分布的参数 $ϕ\phi$ 的函数，二者关系倒，表示为: $ϕiϕk\eta_{i} = log \ \frac{\phi_{i}}{\phi_{k}}$ 其中 $1,\ldots,k$ ，为计算方便，定义 $ϕkϕk=0\eta_{k} = log \ \frac{\phi_{k}}{\phi_{k}} = 0$ 则有：
在这里插入图片描述
最有应用假设 $η\eta$ 是输入变量 $x$ 的线性函数得出：
$eηj\phi_{i} = \frac{e^{\eta_{i}}}{\sum_{j = 1}^k \ e^{\eta_{j}}}$ 将 $ϕ\phi$ 定义为 $η\eta$ 的函数，从 $η\eta$ 到 $ϕ\phi$ 的映射函数称为softmax函数， $1,\ldots,k - 1$ 。为了完成模型，使用前面给出的假设3，即 $ηi\eta_{i}$ 与 x 的线性相关。因此，有 $η_{i}=θ_{i}^{T}x（对于i = 1，...，k - 1$ ），其中 $θ_{1}，.... ，θ_{k-1}∈ R^{n + 1}$ 是模型的参数。为了符号方便，定义 $θ_k= 0$ ，以便 $η_k=θ_{k}^{T}x= 0$ ，如前所述。因此，模型假设给定x的y的条件分布由下式给出:
在这里插入图片描述
该模型适用于分类问题，其中 $y∈\{1 ,.... ，k\}$ ，称为softmax回归。它是逻辑回归的推广。假设将输出:

对于 $i = 1 ， . . . ， k$ 的每个值，假设将输出 $P (y = i ∣ x; θ)$ 的估计概率。（尽管如上定义的 $h_θ(x)$ 仅为 $k - 1$ 维，但显然 $P (y = k ∣ x; θ)$ 可以获得: $1−∑i=1k−11-\sum_{i=1}^{k-1}$ 。