深度学习 21天实战caffe 前三天笔记

最新推荐文章于 2019-07-07 13:32:37 发布

原创最新推荐文章于 2019-07-07 13:32:37 发布 · 2.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #caffe

机器学习同时被 2 个专栏收录

14 篇文章

订阅专栏

caffe

1 篇文章

订阅专栏

本文介绍了深度学习的基本概念，包括监督学习、反向传播算法及卷积神经网络原理，并对比了不同深度学习框架的特点。

本文用作《深度学习21天实战caffe笔记》的备忘，请结合原书食用~

前言

Caffe框架以“层”为单位对深度神经网络的结构进行了高度的抽象。
Caffe由贾杨清开发。
卷积神经网络发明者Geoffrey Hinton在20世纪70年代提出深度学习理论，随着NVIDIA GPU的广泛使用才大量应用。
深度学习年代久远，当时受限于计算能力不足和数据集匮乏陷入低谷，直到云计算、大数据时代到来才突飞猛进。

第一天什么是深度学习

带“学习”功能的机器：“看”未知系统的输入-输出对（训练样本），自动得算法，可举一反三（泛化）。
训练样本 $D = {z_1,z_2,z_3\cdots z_n}$ ， $z_i$ 位输入-输出对。
惩罚函数 $L(f,Z)$ ，参数为学到的规则 $f$ 和独立于 $Z$ 的验证样本集，返回值为实数标量，称为惩罚值或损失。目标是 $L(f,Z)$ 尽量小。
机器学习需要三份数据：
- 训练集：机器学习的样例
- 验证集：机器学习阶段，用于评估得分和损失是否满足要求
- 测试集：机器学习结束之后，实战阶段评估得分。；
深度学习：由多个处理层组成的计算模型，可通过学习获得数据的多抽象层表示。
机器学习三大牛：Geoffrey Hinton, Yann LeCun, 和 Youshua Bengio。

第二天深度学习的过往

传统机器学习需要手动提取特征，比较繁琐且往往需要领域专家设计特征。
分类问题中，高层特征能强调重要的类别信息，而抑制无关的。如图像中从低到高的特征：边缘->图案->图案组合。深度学习自动在高维数据中发现复杂结构。

监督学习

监督学习中的数据是带有标签（label）的。
训练过程中需要不断更新权值（参数）向量，方法是：计算梯度向量，表示每个权值增加一个微小值时目标函数的变化量，之后权值向量根据梯度向量的相反方向调节。
经典更新方法——随机梯度下降（Stochastic Gradient Descent, SGD）：输入少量样本，计算输出和误差，计算样本的平均梯度，根据梯度调节平均值。
线性分类器：高于阈值就分为一类，否则另一类。
深度学习核心优势：自动学习好的特征，很多个模块，每个都能计算非线性输入-输出映射。

反向传播算法

反向传播算法通过计算目标函数相对于多层网络权值的梯度，进行链式求导，从而调整参数。

下面举一个网络的例子，下图的左、右分别代表了该网络的前向传播和反向传播的过程

前向传播

先看左图前向传播的计算过程：

Input -> H1

取H1中的一个结点 $j$ ，其值 $y_j = f(z_j)$ 。
其中 $z_j$ 是input中三个结点 $x_1, x_2, x_3$ 的函数，也就是说 $j$ 的 $y_j$ 由 $x_i$ 决定。
这里的 $z_j = \sum\limits_i w_{ij}x_i$ ，其中 $w_{ij}$ 为权重。
函数 $f$ 是一个激活函数（如ReLU），它对 $z_j$ 进行非线性变换，得到输出 $y_j$ 。

H1->H2和H2->Output

类似的，令H2、Output中的结点为 $k$ 和 $l$ ，我们可以得到：
$y_k=f(z_k), z_k = \sum\limits_j w_{jk}y_j$
$y_l=f(z_l), z_l = \sum\limits_k w_{kl}y_l$

反向传播

再来看右图反向传播的计算过程，它分为两步；
1. 计算每层的梯度：对于每层，我们计算它对这一层的输出结点误差的梯度，也就是求对后一层的输入误差的加权和。
2. 应用链式求导法则，将误差梯度传到这一层的输入结点。

例如，若Output units中的结点 $l$ 的代价函数（loss function）为 $E = 0.5(y_l - t_l) ^2$ ，其中 $t_l$ 是我们想要的输出， $y_l$ 是目前的输出，我们现在求这个loss function对 $z_l$ 的梯度：

$E$ 对于 $y_l$ 的偏导数为 $y_l-t_l$ ，又因为 $y_l = f(z_l)$ ，所以 $\frac{\partial E}{\partial z_l} = \frac{\partial E}{\partial y_l} \frac{\partial y_l}{\partial z_l}= (y_l-t_l) f'(z_l)$ 。
这里运用了链式求导法则，将 $E$ 对 $z_l$ 的偏导拆成了两个偏导的乘积，我们只需要分别计算这两个因子，将它们相乘就能得到想要的结果。

同理，要计算loss function对H2的梯度，应用链式求导法则的可得：
$\frac{\partial E}{\partial y_k} = \sum\limits_l \frac{\partial E}{\partial z _l} \frac{\partial z_l}{\partial y_k}= \sum\limits_l w_{kl} \frac{\partial E}{\partial z _l}$ ，这里的 $\frac{\partial E}{\partial z _l}$ 我们之前刚刚计算过，直接用就好。