台湾大学李宏毅深度学习1

最新推荐文章于 2023-10-26 11:35:03 发布

原创最新推荐文章于 2023-10-26 11:35:03 发布 · 869 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

机器学习专栏收录该内容

5 篇文章

订阅专栏

深度学习的三个步骤
- Neural Network(神经网络)：我们经常设计神经网络，并且让机器从数据中寻找参数。
- Cost function(成本函数)：用来判断一组参数是好还是不好
- Optimization(最优化)：找到最好的函数
Fully connected layer(全连接层)：
- 第i-1和第i层之间两两相连。第l-1层的第1个神经与第l层的第2个神经相连，得到的是 $w21lw^l_ {21}$ 。上边l表示连接的是第l-1层和第l层。下标21表示连接的是第l层的第2个神经，到第l-1层的第1个神经。注意这里下标是反的
- 最后每两个相连的层之间形成一个w数组。这个数组的行数是第l层的神经个数，列数是第l-1层的神经个数。
- 每一层的神经元的表示 $aila^l_i$ 表示在第l层的第i个字符。如果是 $a^l$ 则表示第l层的所有神经元，形成一个vector。
- $zilz^l_i$ ：第l层的第i个神经的活动输入。 $z^l$ 表示第l层的所有输入。
  $zilz^l_i$ = $wi1lw^l_{i1}$ $a1l−1a^{l-1}_1$ + $wi2lw^l_{i2}$ $a2l−1a^{l-1}_2$ +…… $bilb^l_i$
  其中 $bilb^l_i$ 代表的是第l层的第i个神经元的常数。
- 那么考虑 $a^l$ 和 $a^{l-1}$ 之间的关系。
  $z1lz^l_1$ = $w11lw^l_{11}$ $a1l−1a^{l-1}_1$ + $w12lw^l_{12}$ $a2l−1a^{l-1}_2$ +……+ $b1lb^l_1$
  $z2lz^l_2$ = $w21lw^l_{21}$ $a1l−1a^{l-1}_1$ + $w22lw^l_{22}$ $a2l−1a^{l-1}_2$ +……+ $b2lb^l_2$
  $zilz^l_i$ = $wi1lw^l_{i1}$ $a1l−1a^{l-1}_1$ + $wi2lw^l_{i2}$ $a2l−1a^{l-1}_2$ +……+ $bilb^l_i$
  那么上面的式子可以用矩阵表示
  $\left[ \begin{matrix} z^l_1 \\ z^l_2 \\ \vdots \\ z^l_i \\ \vdots \end{matrix} \right]$
  也就是 $Z^l$ = $W^l$ $a^{l-1}$ + $b^l$
- 当知道了 $a^{l-1}$ 与 $z^l$ 之间的关系，如果也知道 $z^l$ 和 $a^l$ 之间的关系，我们就可以得到 $a^{l-1}$ 和 $a^l$ 之间的关系。
  那么z与a的关系，假设l层的函数是 $σ\sigma$ ()。那么 $aila^l_i$ = $σ\sigma$ ( $zilz^l_i$ ) 。还可以 $a^l$ = $σ\sigma$ ( $z^l$ )
- 那么根据第5条和第6条两条式子，我们可以知道 $a^{l-1}$ 和 $a^l$ 之间的关系： $a^l$ = $σ\sigma$ ( $W^la^{l-1}$ + $b^l$ )
Recurrent structure(周期性结构)：用同一个函数不断去简化网络。
- 有一个 $h^`$ ,y= $f (h, x)$ 这个函数有两个参数，同时又两个返回值。
- 则如果 $h_0$ 和 $x_1$ 是第一个参数，得到的输出是 $h_1$ ， $y_1$ = $f(h_0,x_1)$ 。继续重复这个过程， $h_2$ ， $y_2$ = $f(h_1,x_2)$ 。就是用 $f ()$ 这个函数不断去简化网络。但是这里有一个重点** $h^i$ 和 $h^{i-1}$ **
- Deep RNN:
  $h^`$ ,y= $f_1(h,x)$
  $b^`$ ,c= $f_2(b,y)$
  这里注意上下两条的y是同一个y。
- Bidirectional RNN:
  $h^`,a=f_1(h,x)$
  $b^`,c=f_2(b,x)$
  $y=f_3(a,c)$
- Pyramidal RNN(循环神经网络)：每一层把下一层的好几个block的输出作为自己的输入，那么就可以减少sequence的长度。
- Naive RNN： $h^`，y=f(h,x)$
  $h‘=σ(whh+wix)h^`=\sigma(w^h h+w^ix)$
  $y=σ(w0h‘)y=\sigma(w^0h^`)$
LSTM(长短时记忆网络)：
- $c^t$ 和 $c^{t-1}$ 之间是相加的关系，也就是 $c^t$ 是变化很慢的。
- $h^t$ 和 $h^{t-1}$ 之间差别很大，也就是 $c^t$ 是变化很快的。
- 运算过程：
  
  这里把 $x^t$ 和 $h^{t-1}$ 看成是并在一起，再乘上w(一个矩阵)
  $c^t$ 和 $y^t$ 和 $h^t$ 的得到过程是：
GRU(Gated Recurrent Unit)：