《Neural network and deep learning》学习笔记（一）

最新推荐文章于 2023-01-18 11:05:50 发布

原创最新推荐文章于 2023-01-18 11:05:50 发布 · 973 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

Deep Learning 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种使用神经网络识别手写数字的方法，并详细探讨了如何通过梯度下降算法来最小化网络的代价函数，使得预测值尽可能接近实际值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Using neural nets to recognize handwritten digits

Learning with gradient descent

对于一个网络，它的代价函数：

C (w, b) \equiv 1 2 n \sum x ∥ y (x) - a ∥ 2

$\begin{eqnarray} C(w,b) \equiv \frac{1}{2n} \sum_x \| y(x) - a\|^2\end{eqnarray}$
其中，w和b为权重和偏置，n为输入样本总数，y(x)为输入样本x所属的类别，也就是groundtruth，a为经过网络计算后得到的向量。另外，C可以称作是二次代价函数，或者均方误差（MSE）。
我们要做的就是尽可能找到一组权重和偏置(w,b)来最小化代价函数，也就是说让预测值越接近groundtruth越好。训练算法采用梯度下降法（gradient descent）。
最小化

C(v) $C(v)$ ，而

v=v1,v2,… $v = v_1,v_2, \ldots$ ，其中用

v $v$ 来表示w和b。假设代价函数C有两个分量，

v1和v2 $v1和v2$
这里写图片描述

我们要做的就是找到曲面的最低点，因此要得到C的梯度信息。

Δ C \approx \partial C \partial v 1 Δ v 1 + \partial C \partial v 2 Δ v 2

$\begin{eqnarray} \Delta C \approx \frac{\partial C}{\partial v_1} \Delta v_1 + \frac{\partial C}{\partial v_2} \Delta v_2\end{eqnarray}$
注意啊，这里是变化值，不是梯度啊！
然后将上式中的导数部分提出来作为一个向量有：