神经网络的公式推导与代码实现

原创于 2024-12-03 17:05:53 发布 · 1.4k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

传知代码论文复现专栏收录该内容

160 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

文献参考

Learning representations by back-propagating errors
《Learning representations by back-propagating errors》这篇论文是神经网络和机器学习领域的开创性工作，由David E. Rumelhart, Geoffrey E. Hinton, 和 Ronald J. Williams于1986年发表。这篇论文的主要内容是介绍了反向传播算法（Backpropagation），这是一种用于训练多层神经网络的高效方法。

反向传播算法的核心思想是利用链式法则来计算神经网络中每个权重参数的梯度，即计算损失函数对每个权重的影响。这些梯度随后用于通过梯度下降法更新网络中的权重，目的是最小化网络的预测误差。

论文的主要贡献包括：

反向传播算法的描述：详细阐述了如何计算多层网络中每个权重的误差梯度。这个过程涉及到从输出层开始，逐层向后传播误差信号，直到达到输入层。

误差梯度的计算：论文解释了如何利用误差梯度来调整网络中的权重，以便减少网络输出和目标值之间的差异。

网络结构的讨论：论文讨论了不同类型的网络结构，包括前馈网络和反馈（递归）网络，并探讨了它们在不同任务中的应用。

学习表示的选择：论文讨论了学习表示的重要性，即网络如何通过学习输入数据的内在特征来提高性能。

实验结果：提供了使用反向传播算法训练网络的实验结果，展示了该算法在语音识别和手写字符识别等任务上的有效性。

反向传播算法的提出对深度学习的发展产生了深远的影响，它使得研究人员能够训练具有大量参数的复杂神经网络，这在之前是不可能的。这篇论文因此被认为是深度学习领域的里程碑之一。

概述

本文将详细推导一个简单的神经网络模型的正向传播、反向传播、参数更新等过程，并将通过一个手写数字识别的例子，使用python手写和pytorch分别实现，能够让读者深刻地理解神经网络的具体参数更新训练的工作流程，文末将包含数据+代码+PPT。

这些内容是基于神经网络和机器学习的通用知识，正向传播和反向传播，如今几乎所有的深度学习模型的训练都是基于这样相同或者相似的方法进行训练的，有助于帮助我们更加深入的理解深度学习模型。

引言

多层感知机（Multilayer Perceptron，简称MLP）是神经网络的一种。MLP是一种前馈神经网络，它包含一个或多个隐藏层，以及非线性激活函数，这使得MLP能够学习和模拟复杂的非线性关系。MLP是最基础也是最广泛研究的神经网络类型之一，本文将以一个MLP模型来展开。

MLP的结构通常如下：

输入层：接收外部输入数据。

隐藏层：一个或多个隐藏层，每层包含多个神经元。隐藏层负责从输入数据中提取特征并进行初步的非线性变换。

输出层：输出网络的预测结果，对于分类问题，输出层通常使用softmax激活函数进行多类分类。

MLP的训练过程通常包括以下几个步骤：

前向传播：输入数据通过网络，通过每个神经元的加权和和激活函数，最终得到输出。
计算损失：使用损失函数（如均方误差、交叉熵等）计算网络输出与真实标签之间的差异。

反向传播：根据损失函数的梯度，计算每一层的权重对损失的贡献，即梯度。

权重更新：使用梯度下降或其他优化算法（如Adam、RMSprop等）根据梯度更新网络的权重和偏置。

MLP在许多领域都有应用，包括图像识别、语音识别、自然语言处理、游戏AI等。随着深度学习的发展，MLP作为深度神经网络的基础，其结构和训练方法也在不断地被改进和优化。

实际上，几乎所有的深度学习模型中都会有MLP的身影，相当于深度学习模型的骨架，特别是在深度学习模型中最后一步，通常会接个MLP来使得输出的维度符合我们任务的需求，例如我们当前需要要对手写数字识别，那就是一个10分类问题，最后输出可以通过接一个MLP变成10维，每一维代表一个分类，从而顺利地使模型适配我们的任务。