神经网络和多层感知机MLP

最新推荐文章于 2025-05-17 13:29:43 发布

王心远

最新推荐文章于 2025-05-17 13:29:43 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：神经网络文章标签：神经网络算法人工智能机器学习 mlp

本文链接：https://blog.youkuaiyun.com/weixin_43931548/article/details/118650642

神经网络和多层感知机MLP

文章内容和代码可由此处查看或下载：

https://github.com/WangXinyuanCSU/DeepLearning-Concepts-and-Implementation

参考：

https://www.cnblogs.com/pinard/p/6422831.html
https://zhuanlan.zhihu.com/p/73214810
https://blog.youkuaiyun.com/tyhj_sf/article/details/79932893

1. 感知机到神经网络，神经网络的基本结构

1.1 感知机

感知机模型是将若干输入加权求和并通过激活函数后输出的模型：

感知机可以表示为线性变换+非线性激活函数：

$z=∑_{i=1}^{m}w_ix_i+b$
在这里插入图片描述

上述模型是一个二分类器，由于其过于简单，无法拟合复杂的非线性任务。

1.2 神经网络及其基本结构

神经网络则是基于这样的简单模型，将多个神经元逐层堆叠，由此形成我们的深度模型：

在这里插入图片描述

上图是一个最简单的神经网络，它包含神经网络的最基本结构：

输入层：对应输入向量的大小

输出层：对应模型任务，可以是二分类，多分类，也可以是回归任务等等

隐层：由多个感知机，即神经元组成，每个神经元对上层的所有输入做线性变换与非线性激活。

1.3 神经网络参数的定义

神经网络的隐层可以不止一层，宽度也可以很宽，一般来说，我们计算网络层数时不考虑输入层，所以下图是一个４层的神经网络，由于每层神经元连接到上层的所有输入，这个网络也叫做全连接网络，或多层感知机：

由于网络中每层都有参数 $w$ 和 $b$ ，所以我们需要特定的方式进行定义：以下图一个三层的DNN为例，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为 $w243w^3_{24}$ 。上标3代表线性系数 $w$ 所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。这样定义，每层进行的矩阵运算都可以表示为 $w^Tx+b$ 。