【第三章】神经网络的架构-前馈神经网络

本文介绍了神经网络的基本组成部分,包括输入层、输出层和隐藏层,特别关注了前馈神经网络与递归神经网络的区别。作者探讨了隐藏层设计的艺术性和启发式方法,并指出递归神经网络虽有潜力但学习算法相对较弱,本教程将主要聚焦于前馈网络的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

架构

在下一部分,我将介绍一个能够相当不错地对手写数字进行分类的神经网络。为了做好准备,有必要解释一些术语,这些术语让我们能够给网络的不同部分命名。假设我们有以下网络:
在这里插入图片描述
如前所述,这个网络中最左边的层被称为输入层,层内的神经元被称为输入神经元。最右边或输出层包含输出神经元,或者在这种情况下,一个单独的输出神经元。中间层被称为隐藏层,因为这一层中的神经元既不是输入也不是输出。术语"隐藏"可能听起来有点神秘 - 我第一次听到这个术语时以为它一定有一些深刻的哲学或数学意义 - 但它实际上只是意味着"既不是输入也不是输出"。上面的网络只有一个隐藏层,但有些网络有多个隐藏层。例如,下面的四层网络有两个隐藏层:
在这里插入图片描述
有点令人困惑是,也是出于历史原因,这种多层网络有时被称为多层感知器或MLP,尽管它们由Sigmoid神经元组成,而不是感知器。在本教程中,我不打算使用MLP术语,因为我认为它容易混淆,但我想提醒你它的存在。
神经网络中输入和输出层的设计通常是直接的。例如,假设我们试图确定一幅手写图像是否描绘了一个"9"。设计网络的一种自然方式是将图像像素的强度编码到输入神经元中。如果图像是一个64×64的灰度图像,那么我们将有4,096=64×64个输入神经元,其强度在0到1之间适当缩放。输出层将只

<think>嗯,用户想了解前馈神经网络的架构图。首先,我需要回忆一下前馈神经网络的基本结构。前馈神经网络通常包括输入层、隐藏层和输出层,数据单向流动,没有循环或反馈。接下来,我应该考虑如何用文字描述这个架构图,可能需要分步骤解释各层的组成部分,以及它们之间的连接方式。 用户可能希望了解每一层的作用,比如输入层负责接收数据,隐藏层进行特征提取,输出层给出预测结果。同时,激活函数的作用也很重要,比如Sigmoid、ReLU等,应该在架构中提及。另外,前馈的过程需要强调数据从输入到输出的单向传播,没有反向连接。 需要注意用户提到要使用LaTeX格式的数学公式,所以当涉及到数学表达式时,比如加权求和或激活函数,需要用$...$包裹。例如,神经元输出的计算式:$a_j = \sigma(\sum w_{ji} x_i + b_j)$,这里要确保语法正确。 用户可能需要一个清晰的步骤解释,所以结构上应该分点说明,比如层结构、连接方式、激活函数、前向传播过程等。同时,可能需要对比其他网络结构,如反馈神经网络,来突出前馈的特点。 还要考虑用户可能的背景,是否具备相关知识,是否需要简化某些概念。比如,解释隐藏层时,可能需要提到深度增加隐藏层数,但这里保持基础解释即可。另外,架构图的文字描述是否足够,或者是否需要建议用户查阅具体图示,但由于用户要求文字介绍,所以需要详细用文字描绘。 后,检查是否符合所有系统级指令:正确使用LaTeX格式,结构清晰,分步骤说明,使用中文,没有使用Markdown格式。确保每个数学表达式都正确无误,比如积分例子中的公式是否正确,虽然用户例子中的积分可能只是示例,但自己提到的公式如激活函数计算需要正确。</think>前馈神经网络(Feedforward Neural Network)是一种基础且广泛应用的神经网络结构,其数据流向为单向传递(输入→输出),无循环或反馈。以下是其架构的关键组成部分和运作流程的逐步解析: --- ### 一、层结构 1. **输入层(Input Layer)** - 功能:接收原始数据(如特征向量)。 - 节点数:等于输入特征的维度,例如输入图像像素为 $28 \times 28$,则节点数为 $784$。 - 数学表示:输入向量 $\mathbf{x} = [x_1, x_2, \dots, x_n]^T$。 2. **隐藏层(Hidden Layers)** - 功能:通过非线性变换提取高阶特征。 - 层数与节点数:可自定义(如1-3个隐藏层,每层节点数通常递减)。 - 数学表示:第 $l$ 层输出 $\mathbf{a}^{(l)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)})$,其中 $\sigma$ 为激活函数。 3. **输出层(Output Layer)** - 功能:生成终预测结果(如分类概率、回归值)。 - 节点数:由任务决定(如二分类为1,多分类为类别数)。 - 数学表示:输出 $\mathbf{\hat{y}} = \text{softmax}(\mathbf{W}^{(L)} \mathbf{a}^{(L-1)} + \mathbf{b}^{(L)})$(分类任务为例)。 --- ### 二、连接方式 - **全连接(Fully Connected)** 相邻层的每个节点均与下一层所有节点相连,权重矩阵 $\mathbf{W}$ 记录连接强度。 **示例**:第 $l$ 层第 $j$ 个节点的输入为: $$ z_j^{(l)} = \sum_{i=1}^{n} w_{ji}^{(l)} a_i^{(l-1)} + b_j^{(l)} $$ --- ### 三、激活函数(关键非线性组件) - **常见函数**: - Sigmoid:$\sigma(z) = \frac{1}{1 + e^{-z}}$(输出范围 $(0,1)$) - ReLU:$\sigma(z) = \max(0, z)$(缓解梯度消失) - Softmax:$\sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^k e^{z_j}}$(多分类归一化) --- ### 四、前向传播流程 1. 输入数据 $\mathbf{x}$ 传递至输入层。 2. 逐层计算隐藏层输出: $$ \mathbf{a}^{(l)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}) $$ 3. 输出层生成预测结果 $\mathbf{\hat{y}}$。 --- ### 五、架构示意图(文字描述) ``` 输入层 隐藏层1 隐藏层2 输出层 (3节点) (4节点) (4节点) (2节点) x₁ ●----------------------------● \ / \ / \ / x₂ ●----------------------------● / \ / \ / \ x₃ ●----------------------------● ``` --- ### 六、典型特点 - **无反馈**:信息单向流动,无循环结构(区别于RNN)。 - **通用近似性**:单隐藏层即可逼近任意连续函数(需足够宽度)。 - **参数规模**:权重矩阵维度为 $n_{\text{当前层}} \times n_{\text{前一层}}$。 如需进一步绘制具体架构图,建议使用工具如TensorBoard或绘图库(如Matplotlib),标注层名、节点数与激活函数。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值