简单多层全连接神经网络

本文详细介绍了简单多层全链接神经网络的结构与工作原理,包括模拟神经元、单层神经网络分类器、各种激活函数如Sigmoid、Tanh、ReLU、Leaky ReLU和Maxout的优缺点。此外,还讨论了神经网络的模型表示能力与容量,并概述了反向传播算法及其基于链式法则的求解梯度过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.简单多层全链接前向网络

1.1模拟神经元

        脑神经元收到一个输入的信号,经过不同的突触、信号进入神经元,接着通过神经元内部的激活处理,最后沿着神经元的轴突输出一个信号,这个轴突通过与下一个神经元的突触相连,从而将输出信号传到下一个神经元。

       在神经网络的计算模型中,输入信号就是我们的输入数据,模型的参数就相当于突触,然后输入信号传入神经元就像是输入的数据和模型参数进行线性组合,然后经过激活函数,最后传出模型。

1.2单层神经网络分类器

        一个神经元可以对一个输入进行不同的操作,可以是“喜欢(激活变大),或者是“不喜欢(激活变小)”,正是由于激活函数的作用,我们可以将一层神经网络用作分类器,正样本就让激活函数激活变大,负样本就让激活函数激活变小。

1.3激活函数

⑴Sigmoid

        Sigmoid非线性激活函数的数学表达式是\sigma (x)=\frac{1}{1+e^{-x}},Sigmoid函数是将一个实数转化为0~1之间输出,但该函数近几年很少有人再使用了,原因是因为Sigmoid有两大缺点。

        缺点1:Sigmoid函数会造成梯度消失,Sigmoid函数在靠近1和0的两端时,梯度会几乎变成0,如果梯度接近0,那么没有任何信息来更新参数,这样就会造成模型不收敛。另外在初始化权重参数的时候也需要小心,如果初始化的太大,那么经过激活

MNIST手写数字识别是一个经典的机器学习案例,通常用于入门深度学习教程。它利用多层全连接神经网络(Multilayer Perceptron,MLP)对图像数据进行处理。以下是构建这样一个模型的基本步骤: 1. **数据预处理**:首先从MNIST数据集中加载训练集和测试集,对图片进行灰度化、归一化(通常将像素值缩放到0-1之间),并转化为张量形式。 2. **模型结构设计**:一个基本的多层全连接神经网络包括输入层、隐藏层和输出层。可以有多个隐藏层,每个层包含若干个节点,它们通过激活函数(如sigmoid、ReLU等)进行非线性转换。 - **输入层**:接收28x28像素的图像,可能需要展平成一维向量。 - **隐藏层**:使用全连接权重矩阵进行乘法运算,每层可能会有不同的节点数,层数取决于模型复杂度。 - **输出层**:对于MNIST,通常使用10个节点对应0到9这十个数字类别,采用softmax函数使得输出结果概率总和为1。 3. **损失函数和优化器**:交叉熵损失函数适用于多分类问题,而Adam、SGD或其他优化算法用于调整网络权重以最小化损失。 4. **训练过程**:通过反向传播算法计算梯度,并使用优化器更新权重。分批训练可以提高效率,常见的批量大小为32或64。 5. **评估和调整**:在验证集上进行性能评估,观察准确率等指标。根据情况调整网络架构(比如添加更多隐藏层、改变节点数)、学习率、正则化等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值