深度学习---（1）神经网络与多层感知机

rain雨雨编程

已于 2024-10-23 08:30:18 修改

阅读量1.4k

点赞数 37

分类专栏：深度学习文章标签：深度学习 python 神经网络多层感知机神经

于 2024-10-22 10:31:15 首次发布

本文链接：https://blog.youkuaiyun.com/qq_51749909/article/details/143141836

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

前言

为本文提供了神经网络的全面介绍，从基础理论到实际应用，再到模型评估和优化

1 感知机的原理

感知机是最早的人工神经网络模型之一，它是一个简单的线性二分类模型。感知机的基本原理如下：

1.1 模型结构

神经元：神经网络的基本单位，通常由输入、权重、激活函数和输出组成。每个神经元接收输入信号，通过权重加权后，经过激活函数得出输出信号。
层：神经元被组织成层，包括输入层、隐藏层和输出层。

输入层：接收原始数据输入。
隐藏层：位于输入和输出之间，处理数据并提取特征。可以有多个隐藏层。
输出层：产生最终的网络输出。

前向传播：数据通过各层传递，计算输出结果的过程。
反向传播：通过计算输出误差并将其反馈到网络中，调整权重以降低误差的过程。

1.2 权重更新

监督学习：感知机通过监督学习的方式进行训练，即每个训练样本都有一个已知的标签。
梯度下降：感知机利用梯度下降法来更新权重。对于每个训练样本，计算预测输出与真实标签之间的误差，然后根据误差调整权重，使得误差最小化。

1.3 学习规则

感知机学习规则：感知机的学习规则是基于误分类的修正。如果一个样本被错误分类，感知机会根据以下规则更新权重：

其中，η是学习率。如果感知机的预测正确，即η∧=η ，其收到的反馈为 0，参数不更新。如果感知机预测为 0，但样本的真实标签为 1，感知机收到的反馈为-1，说明其预测结果整体偏大，需要将权重和偏置下调；如果感知机预测为 1，真实标签为 0，则需要将权重和偏置上调。

1.4 局限性

线性不可分：感知机只能解决线性可分的问题。对于非线性问题，如异或（XOR）问题，感知机无法找到一组权重来正确分类所有样本。

2 隐含层与多层感知机

多层感知机（MLP）是神经网络的一种，它通过堆叠多个层来增强模型的学习能力。MLP的核心在于引入隐含层，这些隐含层可以学习输入数据的更复杂和抽象的表示。

2.1 隐含层

隐含层是指位于输入层与输出层之间的层。在多层神经网络中，输入层接收原始数据，经过一个或多个隐含层的处理后，最终产生输出层的结果。隐含层通过这些层的权值和激活函数把输入转化为输出。

隐含层的功能

特征提取：隐含层的主要作用之一是从输入数据中提取特征。每个隐含层通过不同的神经元组合来学习数据中的不同特征。
非线性变换：通过激活函数，隐含层可以引入非线性变换，使得神经网络能够拟合复杂的关系。这一特性使得网络能够解决线性不可分的问题。
多层组合：多个隐含层可以组合成更复杂的特征表示。深度学习中的“深度”概念通常体现在有多个隐含层的网络结构。注意：激活函数一定得是非线性的，才能使网络模型有更广的拟合能力。

隐含层的结构

层数：隐含层的层数和每层的神经元数量可以根据任务的复杂性进行设计。
神经元数量：通常情况下，隐含层的神经元数量是可调的超参数，需要通过实验进行优化。
连接方式：在多层感知机中，隐含层的每个神经元与前一层和后一层的神经元全连接。

常用的激活函数

Sigmoid:

$f(x)=\frac{1}{1+e^{-x}}$

范围在(0,1)，适合二分类任务，但在深层网络中可能导致梯度消失。

Tanh（双曲正切函数）：

$f(x)=tanh(x)=\frac{e^{x}-e^{-x}}{e^{-x}+e^{x}}$

范围在(-1,1)，比Sigmoid更常用，但依然可能遇到梯度消失问题。

ReLU（线性整流单元）：

$f(x)=max(0,x)$

非线性激活函数，计算速度快，不会饱和，广泛用于深度网络。

Softmax：

在输出层用于多分类问题，将输出转换为概率分布。

$f(x_{i})=\frac{e^{x_{i}}}{\sum _{j}e^{x_{j}}}$

在实践中，为了考虑隐含层之间的对称性，我们通常使所有隐含层使用相同的激活函数。

ReLU 函数因其计算简单且易于求导，常被用作隐含层激活函数。输出层的激活函数根据任务要求选择，例如，二分类任务可用逻辑斯谛函数可以选用逻辑斯谛函数，多分类问题可以选用softmax 函数，要求输出在（a,b）区间内的问题可以选用 $\frac{b-a}{2}tanh(x)+\frac{b+a}{2}$ 。