【AI笔记】神经网络的原理理解和入门~

原创已于 2025-12-02 00:24:42 修改 · 397 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #笔记 #神经网络

于 2025-12-02 00:21:58 首次发布

文章目录

AI的目的
最简单的神经网络（我可不神经！）

AI的目的

我认为就一句话，找到世间万物的方程，即找到一个对应的
$y = f (x)$
我们物理中学的 $F = ma$ 这些，其实就是一个方程式，比如他是一个关于a的方程，这个是物理规律。
但是对于世间别的物理量，如想刻画一下：葡萄的可溶性固态溶解物与葡萄的重量，尺寸之间的关系，这个事情并不是可以通过一个公式来总结和整理出来的。
另外，对于世界的万物，找到一个完整的函数来说，真的难上加难！那我们退而求其次，从找完全拟合的函数变到从找到一个近似解。这就是AI的本质。
AI的本质就是在找解决问题的最优方程式！

最简单的神经网络（我可不神经！）

前向计算

其实前向计算没有什么可以讲解的，就是
$y = W * x + b$
$o u tp u t = g (y)$
这里的 $g (y)$ 为一个激活函数常见的有 $t anh, re LU, s i g m o i d$ 等等
激活函数的作用主要是将线性变换转成非线性，能够提高模型的表达能力。（一开始只能是线性的，但是引入了非线性操作，即本来是直线，现在可以说弯弯曲曲的了！）

反向传播

方向传播很有意思。当地时间10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予John J.Hopfield和Geoffrey E.Hinton，以表彰他们“为利用人工神经网络进行机器学习做出的基础性发现和发明”。
他们的主要贡献就是反向传播！ 可以说这是AI的基石吧。

我们前面提到了，我们需要求一个近似最优解来逼近我们的真实值。转移到数学问题
我们需要让下面这个方程式
$L oss = ∣ GT — P re d ∣$
它的值最小对吧？
事实上常用的Loss是
$\frac{1}{2} || GT — Pred ||^{2}$
你一看，哇这不是我们小学二年级就学过的，抛物线吗？
我知道了！怎么找他的最小值呢？求导！然后呢？令导数等于0 这个地方的取值就是最小值！
完全正确！
但是神经网络没你聪明，他动辄上万个参数，他不能一下就找到令Loss最小的值，而且不同的输入，其GT和Pred不一样，导致Loss也不一样，我们需要一步一步来。
但是本质上，其实还是求导！
那谁对谁求导呢？
我们需要优化什么？我们要优化的每一个参数 $w$
往那个方向优化呢？
诶，这里就简单的说明是
$w_{*} = w - w \times \frac{\partial L}{\partial w}$
就是往这个方向优化
这里的重点就是
$\frac{\partial L}{\partial w}$
这个怎么计算？

直接说：链式求导法则和求解偏导

然后这里有两个问题：

梯度爆炸

爆炸的主要原因感觉就是权重初始化太大了（去年训练LSTMVAE 一直有梯度爆炸的问题，现在才认真的理解为什么会梯度爆炸，还是不能太草率的学习）
为什么权重会影响梯度爆炸
首先，梯度会一直往后传输
$y = W * x + b$
$o u tp u t = g (y)$
结合上面两个网络深度增加的时候有好几层
其实我们可以这样想：
$W_{1}(W_{2}(W_{3}\times x + b_{3})+b_{2})+b_{1}$
你现在想要对 $W_{3}$ 求偏导那肯定会有 $W_{1},W_{2}$ 那权重不就会从后往前传输了？！
OKOK 感觉自己搞懂了一个了不起的东西！