AI的目的
我认为就一句话,找到世间万物的方程,即找到一个对应的
y
=
f
(
x
)
y = f(x)
y=f(x)
我们物理中学的
F
=
m
a
F=ma
F=ma 这些,其实就是一个方程式,比如他是一个关于a的方程,这个是物理规律。
但是对于世间别的物理量,如想刻画一下:葡萄的可溶性固态溶解物与葡萄的重量,尺寸之间的关系,这个事情并不是可以通过一个公式来总结和整理出来的。
另外,对于世界的万物,找到一个完整的函数来说,真的难上加难!那我们退而求其次,从找完全拟合的函数变到从找到一个近似解。这就是AI的本质。
AI的本质就是在找解决问题的最优方程式!
最简单的神经网络(我可不神经!)
前向计算
其实前向计算没有什么可以讲解的,就是
y
=
W
∗
x
+
b
y = W*x+b
y=W∗x+b
o
u
t
p
u
t
=
g
(
y
)
output = g(y)
output=g(y)
这里的
g
(
y
)
g(y)
g(y)为一个激活函数 常见的有
t
a
n
h
,
r
e
L
U
,
s
i
g
m
o
i
d
tanh,reLU,sigmoid
tanh,reLU,sigmoid等等
激活函数的作用主要是将线性变换转成非线性,能够提高模型的表达能力。(一开始只能是线性的,但是引入了非线性操作,即本来是直线,现在可以说弯弯曲曲的了!)
反向传播
方向传播很有意思。当地时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔物理学奖授予John J.Hopfield和Geoffrey E.Hinton,以表彰他们“为利用人工神经网络进行机器学习做出的基础性发现和发明”。
他们的主要贡献就是反向传播! 可以说这是AI的基石吧。
我们前面提到了,我们需要求一个近似最优解来逼近我们的真实值。转移到数学问题
我们需要让下面这个方程式
L
o
s
s
=
∣
G
T
—
P
r
e
d
∣
Loss = | GT — Pred |
Loss=∣GT—Pred∣
它的值最小 对吧?
事实上 常用的Loss是
L
o
s
s
=
1
2
∣
∣
G
T
—
P
r
e
d
∣
∣
2
Loss = \frac{1}{2} || GT — Pred ||^{2}
Loss=21∣∣GT—Pred∣∣2
你一看,哇这不是我们小学二年级就学过的,抛物线吗?
我知道了! 怎么找他的最小值呢?求导!然后呢?令导数等于0 这个地方的取值就是最小值!
完全正确!
但是神经网络没你聪明,他动辄上万个参数,他不能一下就找到令Loss最小的值,而且不同的输入,其GT和Pred不一样,导致Loss也不一样,我们需要一步一步来。
但是本质上,其实还是求导!
那谁对谁求导呢?
我们需要优化什么?我们要优化的每一个参数
w
w
w
往那个方向优化呢?
诶,这里就简单的说明 是
w
∗
=
w
−
w
×
∂
L
∂
w
w_{*} = w - w \times \frac{\partial L}{\partial w}
w∗=w−w×∂w∂L
就是往这个方向优化
这里的重点就是
∂
L
∂
w
\frac{\partial L}{\partial w}
∂w∂L
这个怎么计算?
直接说:链式求导法则和求解偏导
然后这里有两个问题:
梯度爆炸
爆炸的主要原因感觉就是权重初始化太大了(去年训练LSTMVAE 一直有梯度爆炸的问题,现在才认真的理解为什么会梯度爆炸,还是不能太草率的学习)
为什么权重会影响梯度爆炸
首先,梯度会一直往后传输
y
=
W
∗
x
+
b
y = W*x+b
y=W∗x+b
o
u
t
p
u
t
=
g
(
y
)
output = g(y)
output=g(y)
结合上面两个 网络深度增加的时候 有好几层
其实我们可以这样想:
P
r
e
d
=
W
1
(
W
2
(
W
3
×
x
+
b
3
)
+
b
2
)
+
b
1
Pred = W_{1}(W_{2}(W_{3}\times x + b_{3})+b_{2})+b_{1}
Pred=W1(W2(W3×x+b3)+b2)+b1
你现在想要对
W
3
W_{3}
W3求偏导 那肯定会有
W
1
,
W
2
W_{1},W_{2}
W1,W2 那权重不就会从后往前传输了?!
OKOK 感觉自己搞懂了一个了不起的东西!
梯度消失
梯度消失好理解 同样
P
r
e
d
=
W
1
(
W
2
(
W
3
×
x
+
b
3
)
+
b
2
)
+
b
1
Pred = W_{1}(W_{2}(W_{3}\times x + b_{3})+b_{2})+b_{1}
Pred=W1(W2(W3×x+b3)+b2)+b1
但是其中是有激活函数的!如果是sigmoid函数 这种求导后最大值小于1的,你网络深度增加,不也就会导致梯度很小,更新不起来了。
梯度消失和爆炸基本上都是因为反向传播导致的问题!
记录自己从头开始学习AI,希望能学习到大模型的架构以及一些技术。
主要是跟上时代,用上Transformer!
992

被折叠的 条评论
为什么被折叠?



