自适应线性神经元和梯度下降

最新推荐文章于 2025-05-13 22:42:25 发布

翻译最新推荐文章于 2025-05-13 22:42:25 发布 · 729 阅读

文章标签：

#python #机器学习 #神经网络

机器学习同时被 2 个专栏收录

9 篇文章

订阅专栏

读书笔记

1 篇文章

订阅专栏

本文介绍了自适应线性神经元（Adaline）算法，重点讲述了其与感知机的区别，即权重更新基于线性激活函数而非单位阶跃函数。通过定义损失函数并利用梯度下降法进行优化，实现权重的调整。详细解析了损失函数的求导过程及权重更新规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、自适应线性神经元和学习积聚

这一节我们会了解单层神经网络的一种形式：自适应线性神经元（Adaline）。

这个算法的有趣之处在于它阐述了定义和最小化损失函数的关键概念，这位后面许多机器学习分类算法，如逻辑回归，支持向量机和回归模型等打下了基础。

自适应线性神经元和感知机的关键差别在于权重的更新是根据线性激活函数而不是感知机里的单位阶跃函数。在Adaline中，这个线性激活函数 $ϕ(z)\phi(z)$ 仅仅是净输入的确认/识别函数：
$\phi(\bm{w}^{T}\bm{x}) = \bm{w}^T\bm{x}$
同时它也用来训练权重，我们还是会用一个阀值函数来做出最后的预测，有点像我们早先说过的单位阶跃函数那样。

Adaline和感知机的主要区别，可以用下面这张图表示：
在这里插入图片描述

二、通过梯度下降最小化损失函数

监督机器学习算法的核心要素之一，就是目标函数，这也是整个机器学习过程中不断被优化的。这个目标函数也就是损失函数，我们经常要使它最小化。

比如在Adaline中，我们可以定义一个损失函数 $J$ 来衡量预测值和真实值之间的均方误差和（ $S S E$ ）：
$ϕ(zi)=∑iwjxjiJ(\bm{w}) = \frac{1}{2} \sum_i(y^{(i)}-\phi(z)^{(i)})^2\\ ~\\ \phi(z^i) = \sum_i w_jx_j^i$
这个 $12\frac{1}{2}$ 加上纯属简便，这样更容易推导出梯度。用这样一个连续的线性函数相比于单位阶跃函数，最大的好处是损失函数可微分。另一大好处是函数是凸的（这里留备注）。这样我们就可以用一个简单而强大的优化算法梯度下降来找到使损失函数最小化的权重。

我们可以用下山的比喻来解释梯度下降，就像下山要达到最低点才停止一样。每次迭代，我们都往坡度的反方向前进一步，具体的步长由计算出的学习率决定，也就是梯度的斜率：
在这里插入图片描述
运用梯度下降，我们可以通过往梯度函数 $J(w)J(\bm{w})$ 变化值 $∇J(w)\nabla J(\bm{w})$ 的反方向前进一步，来更新权重。
$w:=w+Δw\bm{w} := \bm{w} + \Delta \bm{w}$
这里的权重增加值 $Δw\Delta \bm{w}$ 是负梯度和学习率 $η\eta$ 的乘积：
$\Delta \bm{w} = -\eta \nabla J(\bm{w})$
所以上式也可以这么写：
$\bm{w} := \bm{w} - \eta \nabla J(\bm{w})$
为了计算损失函数的梯度，我们要对其求每个权重 $w_j$ 的偏导：
$\frac{\partial J}{\partial w_j} = -\sum_i (y^{(i)} - \phi(z)^{(i)})x_j^{(i)}$
这样我们把权重增加值写为：
$\Delta w_j = -\eta \frac{\partial J}{\partial w_j} = \eta \sum_i (y^{(i)} - \phi(z)^{(i)})x_j^{(i)}$
这样，我们就同时更新了所有的权重，Adaline的学习规则就变成了：
$\bm{w} := \bm{w} + \Delta \bm{w}$

下面是偏导的求导过程：
$\frac{\partial J}{\partial w_j} = \frac{\partial}{\partial w_j} \frac{1}{2} \sum_i (y^i - \phi(z^i))^2 \\ = \frac{1}{2} \frac{\partial}{\partial w_j} \sum_i (y^i - \phi(z^i))^2 \\ = \frac{1}{2} \sum_i 2(y_i - \phi(z^i)) \frac{\partial}{\partial w_j}(y^i - \phi(z^i)) \\ = \sum_i(y^i - \phi(z^i)) \frac{\partial}{\partial w_j}\bm{\lgroup} y^i - \sum_i(w_jx_j^i) \bm{\rgroup}\\ = \sum_i (y^i - \phi(z^i)(-x_j^i)\\ = -\sum_i(y^i - \phi(z^i))x_j^i$