人工智能基础入门——神经网络讲解

本文概述了人工神经元模型的发展历程,从Perceptron的局限到多层感知机的引入,以及激活函数、反向传播和梯度下降在训练中的关键作用。深入解析了损失函数、正则化策略,以及如何通过深度学习解决非线性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

1、人工神经元

人类神经元中抽象出来的数学模型
在这里插入图片描述
树突:input
细胞核:处理操作+激活函数
轴突末梢:输出
在这里插入图片描述
f(∑i=1NIi⋅Wi\sum_{i=1}^{N} I_{i}\cdot W_{i}i=1NIiWi)=y
人工神经网络:大量的神经元以某种连接方式构成的机器学习模型。
第一个神经网络:1958年,计算机科学家Rosenblatt提出的Perceptron(感知机)
在这里插入图片描述
o=σ\sigmaσ((<w,x>+b)) b是指偏执项
if x>0 σ\sigmaσ=1 else σ\sigmaσ=0
感知机致命缺点:Minsky在1969年证明Perceptron无法解决异或问题。
在这里插入图片描述
σ\sigmaσ(X0{X}_{0}X0W0{W}_{0}W0+X1{X}_{1}X1W1{W}_{1}W1+b)=0
X1{X}_{1}X1=-W0{W}_{0}W0/W1{W}_{1}W1+o/W1{W}_{1}W1-b/W1{W}_{1}W1
所以是一个直线,不能解决异或问题,导致了第一次人工智能发展衰落。
2、多层感知机
多层感知机(Multi Layer Perceptron,MLP):单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层,因而得名多层感知机。
在这里插入图片描述
输入就是W4×5{W}_{4×5}W4×5
隐藏层输出W5×3{W}_{5×3}W5×3
前向传播:
σ(X1×4⋅Wh)=H1×5\sigma({X}_{1×4}\cdot{W}_h)={H}_{1×5}σ(X1×4Wh)=H1×5
σ(H1×5⋅Wo5×3)=O1×3\sigma({H}_{1×5}\cdot{W}_{o5×3})={O}_{1×3}σ(H1×5Wo5×3)=O1×3
如果没有激活函数就会导致多层感知机变成单层感知机
在这里插入图片描述

3、激活函数

(1)让多层感知机成为真正的多层,否则等价于一层
(2)引入非线性,使网络可以逼近任意非线性函数(万能逼近定理universal approximator )
激活函数需要具备以下几点性质:
1.连续并可导(允许少数点上不可导),便于利用数值优化的方法来学习网络参数
2.激活函数及其导函数要尽可能的简单,有利于提高网络计算效率
3. 激活函数的导函数的值域要在合适区间内,不能太大也不能太小,否则会影响训练的效率和稳定性
在这里插入图片描述

4、反向传播

前向传播︰输入层数据从前向后,数据逐步传递至输出层
反向传播:损失函数开始从后向前,梯度逐步传递至第一层
反向传播作用:用于权重更新,使网络输出更接近标签
损失函数:衡量模型输出与真实标签的差异,Loss = f(y^, y)
反向传播原理:微积分中的链式求导法则 y=f(u),u=g(x),∂y∂x=∂y∂u∂u∂x\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x}xy=uyxu
在这里插入图片描述
在这里插入图片描述
梯度下降法
(Gradient Decent) :权值沿梯度负方向更新,使函数值减小导数。函数在指定坐标轴上的变化率方向
导数︰指定方向上的变化率
梯度:一个向量,方向为方向导数取得最大值的方向
 学习率
在这里插入图片描述
在这里插入图片描述

5、损失函数

损失函数:衡量模型输出与真实的标签之间的差距
损失函数(Loss Function): //指单样本
Loss = f (y ^,y)
代价函数(Cost Function): //指总体样本
cost=1/N ∑iNf(yi^,yi)\sum_{i}^{N}f({y}_i^{\hat{}},y_i)iNf(yi^,yi)
目标函数(objective Function): //正则项
0bj = Cost + Regularization Term
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
CE (Cross Entropy,交叉嫡)
交叉嫡:衡量两个概率分布的差异
概率有两个性质:
1.概率值是非负的
2.概率之和等于1
交叉嫡的好伙伴―—Softmax函数:将数据变换到符合概率分布的形式
在这里插入图片描述
在这里插入图片描述

6初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Regularization:减小方差的策略,通俗理解为减轻过拟合的策略
误差可分解为:偏差,方差与噪声之和。即误差=偏差+方差+噪声之和
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界
在这里插入图片描述
在这里插入图片描述
目的:减少L1或L2的值,
L1=∑iN∣Wi∣\sum_i^N |W_i|iNWi
可能有权值的吸收性(当WiW_iWi
L2=∑iNWi2\sum_i^N W_i^2iNWi2
在这里插入图片描述
减少过拟合的方法:
在这里插入图片描述
通过对比两个公式,发现正则化是Wi(1−λ)W_i(1-\lambda)Wi(1λ),而正则化是WiW_iWi,会发现正则化导致了权值变小,过拟合现象也变小了。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值