【学习笔记】深度学习网络-深度前馈网络（MLP）

瑶光守护者

已于 2025-02-09 15:27:23 修改

阅读量1.5k

点赞数 7

文章标签：学习笔记深度学习

于 2025-01-25 23:52:18 首次发布

作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程，深度学习领域研究生必读教材),开始深度学习领域学习，深入全面的理解深度学习的理论知识。

在之前的文章中介绍了深度学习中用到的数学基础和强化学习的概念，本文将开始介绍现代深度学习中用于解决实际应用的实践。

【一文读懂】深度学习技术谱系：探索生成式AI的核心模型(一) 基础技术图谱

【生成式AI】理解深度学习和机器学习的数学基础：线性代数

【万字长文】理解深度学习和机器学习的数学基础：概率论和信息论

【学习笔记】理解深度学习和机器学习的数学基础：数值计算

【学习笔记】理解深度学习和机器学习的关系

深度前馈网络（Deep Feedforward Networks）：简介与核心概念

深度前馈网络（Deep Feedforward Networks），也称为前馈神经网络（Feedforward Neural Networks）或多层感知机（Multilayer Perceptrons, MLPs），是深度学习中最基础且最重要的模型之一。它们被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将基于《深度学习》（Deep Learning）一书中的相关内容，介绍深度前馈网络的基本概念、结构和工作原理。

1. 什么是深度前馈网络？

深度前馈网络是一种人工神经网络，其核心特点是信息单向流动：从输入层经过若干隐藏层，最终到达输出层。与循环神经网络（RNN）不同，前馈网络没有反馈回路，数据不会在网络中循环流动。它的“深度”体现在网络包含多个隐藏层，这些隐藏层使得网络能够学习到数据中的多层次抽象特征。

前馈（Feedforward）：信息从输入层流向输出层，没有反馈或循环。
深度（Deep）：网络包含多个隐藏层，能够学习复杂的非线性映射。

2. 深度前馈网络的结构

深度前馈网络通常由以下几部分组成：

（1）输入层（Input Layer）

输入层接收原始数据（如图像像素、文本向量等），并将其传递给第一个隐藏层。输入层的神经元数量通常由数据的维度决定。

（2）隐藏层（Hidden Layers）

隐藏层是网络的核心部分，负责从输入数据中提取特征。每个隐藏层包含若干神经元，神经元之间通过权重连接。隐藏层的数量和每层的神经元数量是超参数，需要根据任务和数据的特点进行调整。

深度：隐藏层的数量决定了网络的深度。深度网络可以学习到更复杂的特征，但也更难训练。
宽度：每层神经元的数量决定了网络的宽度。宽度网络可以捕捉更多的特征，但计算复杂度较高。

（3）输出层（Output Layer）

输出层生成最终的预测结果。输出层的神经元数量通常由任务的类型决定：

二分类问题：1个神经元（使用Sigmoid激活函数）。
多分类问题：多个神经元（使用Softmax激活函数）。
回归问题：1个或多个神经元（通常不使用激活函数）。

3. 深度前馈网络的工作原理

深度前馈网络的工作原理可以分为以下几个步骤：

（1）前向传播（Forward Propagation）

输入数据通过网络逐层传递，直到输出层生成预测结果。每一层的计算包括线性变换和激活函数：

$z=Wx+b$

$a=f(z)$

其中， $W$ 是权重矩阵， $x$ 是输入向量， $b$ 是偏置向量， $z$ 是线性变换的结果， $f$ 是激活函数， $a$ 是激活后的输出。

（2）损失计算（Loss Calculation）

使用损失函数衡量预测结果与真实标签之间的差距。常见的损失函数包括：

均方误差（MSE）：用于回归任务。
交叉熵（Cross-Entropy）：用于分类任务。

（3）反向传播（Backpropagation）

反向传播算法通过链式法则计算损失函数对每个权重的梯度，并利用梯度下降法更新权重，逐步减少预测误差。

（4）参数更新（Parameter Update）

使用优化算法（如梯度下降、Adam）更新网络参数：

$W\leftarrow W-\eta \frac{\partial L}{\partial W}$

$b\leftarrow b-\eta \frac{\partial L}{\partial b}$

其中， $\eta$ 是学习率， $\frac{\partial L}{\partial W}$ 和 $\frac{\partial L}{\partial b}$ 分别是损失函数对权重和偏置的梯度。

实例：使用深度前馈网络学习XOR函数

XOR（异或）问题是一个经典的例子，用于展示单层感知机（Perceptron）的局限性以及多层感知机（MLP）的强大能力。XOR问题简单但具有代表性，能够很好地说明为什么我们需要深度前馈网络。

1. 什么是XOR问题？

XOR（异或）是一个逻辑运算，其真值表如下：

<

输入 A	输入 B	输出 A XOR B

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。