【AI笔记】神经网络的原理理解和入门~

AI的目的

我认为就一句话,找到世间万物的方程,即找到一个对应的
y = f ( x ) y = f(x) y=f(x)
我们物理中学的 F = m a F=ma F=ma 这些,其实就是一个方程式,比如他是一个关于a的方程,这个是物理规律。
但是对于世间别的物理量,如想刻画一下:葡萄的可溶性固态溶解物与葡萄的重量,尺寸之间的关系,这个事情并不是可以通过一个公式来总结和整理出来的。
另外,对于世界的万物,找到一个完整的函数来说,真的难上加难!那我们退而求其次,从找完全拟合的函数变到从找到一个近似解。这就是AI的本质。
AI的本质就是在找解决问题的最优方程式!

最简单的神经网络(我可不神经!)

前向计算

其实前向计算没有什么可以讲解的,就是
y = W ∗ x + b y = W*x+b y=Wx+b
o u t p u t = g ( y ) output = g(y) output=g(y)
这里的 g ( y ) g(y) g(y)为一个激活函数 常见的有 t a n h , r e L U , s i g m o i d tanh,reLU,sigmoid tanh,reLU,sigmoid等等
激活函数的作用主要是将线性变换转成非线性,能够提高模型的表达能力。(一开始只能是线性的,但是引入了非线性操作,即本来是直线,现在可以说弯弯曲曲的了!)

反向传播

方向传播很有意思。当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔物理学奖授予John J.Hopfield和Geoffrey E.Hinton,以表彰他们“为利用人工神经网络进行机器学习做出的基础性发现和发明”。
他们的主要贡献就是反向传播! 可以说这是AI的基石吧。

我们前面提到了,我们需要求一个近似最优解来逼近我们的真实值。转移到数学问题
我们需要让下面这个方程式
L o s s = ∣ G T — P r e d ∣ Loss = | GT — Pred | Loss=GTPred
它的值最小 对吧?
事实上 常用的Loss是
L o s s = 1 2 ∣ ∣ G T — P r e d ∣ ∣ 2 Loss = \frac{1}{2} || GT — Pred ||^{2} Loss=21∣∣GTPred2
你一看,哇这不是我们小学二年级就学过的,抛物线吗?
我知道了! 怎么找他的最小值呢?求导!然后呢?令导数等于0 这个地方的取值就是最小值!
完全正确!
但是神经网络没你聪明,他动辄上万个参数,他不能一下就找到令Loss最小的值,而且不同的输入,其GT和Pred不一样,导致Loss也不一样,我们需要一步一步来。
但是本质上,其实还是求导!
那谁对谁求导呢?
我们需要优化什么?我们要优化的每一个参数 w w w
往那个方向优化呢?
诶,这里就简单的说明 是
w ∗ = w − w × ∂ L ∂ w w_{*} = w - w \times \frac{\partial L}{\partial w} w=ww×wL
就是往这个方向优化
这里的重点就是
∂ L ∂ w \frac{\partial L}{\partial w} wL
这个怎么计算?

直接说:链式求导法则和求解偏导

然后这里有两个问题:

梯度爆炸

爆炸的主要原因感觉就是权重初始化太大了(去年训练LSTMVAE 一直有梯度爆炸的问题,现在才认真的理解为什么会梯度爆炸,还是不能太草率的学习)
为什么权重会影响梯度爆炸
首先,梯度会一直往后传输
y = W ∗ x + b y = W*x+b y=Wx+b
o u t p u t = g ( y ) output = g(y) output=g(y)
结合上面两个 网络深度增加的时候 有好几层
其实我们可以这样想:
P r e d = W 1 ( W 2 ( W 3 × x + b 3 ) + b 2 ) + b 1 Pred = W_{1}(W_{2}(W_{3}\times x + b_{3})+b_{2})+b_{1} Pred=W1(W2(W3×x+b3)+b2)+b1
你现在想要对 W 3 W_{3} W3求偏导 那肯定会有 W 1 , W 2 W_{1},W_{2} W1,W2 那权重不就会从后往前传输了?!
OKOK 感觉自己搞懂了一个了不起的东西!

梯度消失

梯度消失好理解 同样
P r e d = W 1 ( W 2 ( W 3 × x + b 3 ) + b 2 ) + b 1 Pred = W_{1}(W_{2}(W_{3}\times x + b_{3})+b_{2})+b_{1} Pred=W1(W2(W3×x+b3)+b2)+b1
但是其中是有激活函数的!如果是sigmoid函数 这种求导后最大值小于1的,你网络深度增加,不也就会导致梯度很小,更新不起来了。

梯度消失和爆炸基本上都是因为反向传播导致的问题!

记录自己从头开始学习AI,希望能学习到大模型的架构以及一些技术。
主要是跟上时代,用上Transformer!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值