人工智能基础入门——神经网络讲解

最新推荐文章于 2025-01-12 02:21:35 发布

无乎648

最新推荐文章于 2025-01-12 02:21:35 发布

阅读量4.6k

点赞数 4

分类专栏：深度学习笔记文章标签：人工智能神经网络机器学习

本文链接：https://blog.youkuaiyun.com/WUHU648/article/details/122208907

版权

深度学习同时被 2 个专栏收录

13 篇文章

订阅专栏

笔记

7 篇文章

订阅专栏

本文概述了人工神经元模型的发展历程，从Perceptron的局限到多层感知机的引入，以及激活函数、反向传播和梯度下降在训练中的关键作用。深入解析了损失函数、正则化策略，以及如何通过深度学习解决非线性问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1、人工神经元

人类神经元中抽象出来的数学模型
在这里插入图片描述
树突：input
细胞核：处理操作+激活函数
轴突末梢：输出

f( $\sum_{i=1}^{N} I_{i}\cdot W_{i}$ )=y
人工神经网络：大量的神经元以某种连接方式构成的机器学习模型。
第一个神经网络：1958年，计算机科学家Rosenblatt提出的Perceptron（感知机）
在这里插入图片描述
o= $\sigma$ (（<w,x>+b）) b是指偏执项
if x>0 $\sigma$ =1 else $\sigma$ =0
感知机致命缺点：Minsky在1969年证明Perceptron无法解决异或问题。

$\sigma$ ( ${X}_{0}$ ${W}_{0}$ + ${X}_{1}$ ${W}_{1}$ +b)=0
${X}_{1}$ =- ${W}_{0}$ / ${W}_{1}$ +o/ ${W}_{1}$ -b/ ${W}_{1}$
所以是一个直线，不能解决异或问题，导致了第一次人工智能发展衰落。
2、多层感知机
多层感知机(Multi Layer Perceptron,MLP):单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层，因而得名多层感知机。
在这里插入图片描述
输入就是 ${W}_{4×5}$
隐藏层输出 ${W}_{5×3}$
前向传播：
$\sigma({X}_{1×4}\cdot{W}_h)={H}_{1×5}$
$\sigma({H}_{1×5}\cdot{W}_{o5×3})={O}_{1×3}$
如果没有激活函数就会导致多层感知机变成单层感知机

3、激活函数

(1）让多层感知机成为真正的多层,否则等价于一层
(2）引入非线性，使网络可以逼近任意非线性函数(万能逼近定理universal approximator )
激活函数需要具备以下几点性质:
1．连续并可导（允许少数点上不可导)，便于利用数值优化的方法来学习网络参数
2．激活函数及其导函数要尽可能的简单，有利于提高网络计算效率
3. 激活函数的导函数的值域要在合适区间内，不能太大也不能太小，否则会影响训练的效率和稳定性
在这里插入图片描述

4、反向传播

前向传播︰输入层数据从前向后，数据逐步传递至输出层
反向传播：损失函数开始从后向前，梯度逐步传递至第一层
反向传播作用：用于权重更新,使网络输出更接近标签
损失函数：衡量模型输出与真实标签的差异，Loss = f(y^, y)
反向传播原理：微积分中的链式求导法则 y=f(u),u=g(x), $\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x}$
在这里插入图片描述

梯度下降法
(Gradient Decent) :权值沿梯度负方向更新,使函数值减小导数。函数在指定坐标轴上的变化率方向
导数︰指定方向上的变化率
梯度:一个向量,方向为方向导数取得最大值的方向
学习率

5、损失函数

损失函数:衡量模型输出与真实的标签之间的差距
损失函数(Loss Function): //指单样本
Loss = f (y ^,y)
代价函数(Cost Function): //指总体样本
cost=1/N $\sum_{i}^{N}f({y}_i^{\hat{}},y_i)$
目标函数(objective Function): //正则项
0bj = Cost + Regularization Term
在这里插入图片描述

CE (Cross Entropy，交叉嫡)
交叉嫡:衡量两个概率分布的差异
概率有两个性质:
1.概率值是非负的
2．概率之和等于1
交叉嫡的好伙伴―—Softmax函数:将数据变换到符合概率分布的形式

6初始化

在这里插入图片描述

Regularization:减小方差的策略，通俗理解为减轻过拟合的策略
误差可分解为:偏差，方差与噪声之和。即误差=偏差＋方差＋噪声之和
偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界
在这里插入图片描述

目的：减少L1或L2的值，
L1= $\sum_i^N |W_i|$
可能有权值的吸收性（当 $W_i$ ）
L2= $\sum_i^N W_i^2$

减少过拟合的方法：

通过对比两个公式，发现正则化是 $W_i(1-\lambda)$ ,而正则化是 $W_i$ ,会发现正则化导致了权值变小，过拟合现象也变小了。
在这里插入图片描述