机器学习笔记——人工神经网络（1）

最新推荐文章于 2024-03-22 18:15:49 发布

原创最新推荐文章于 2024-03-22 18:15:49 发布 · 322 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了神经网络的基本构成，包括输入层、隐藏层和输出层的概念，详细解释了神经元的激活函数及其计算过程，并展示了如何使用矩阵运算来简化计算。此外，还通过XNOR示例演示了多层神经网络的工作原理。

模型表示

简单的神经网络表示
这里写图片描述

⎡ ⎣ ⎢ x 1 x 2 x 3 ⎤ ⎦ ⎥ \to [] \to h θ (x)

$\begin{bmatrix}x_1 \newline x_2 \newline x_3 \newline \end{bmatrix}\rightarrow\begin{bmatrix}\ \ \ \newline \end{bmatrix}\rightarrow h_\theta(x)$
神经网络的输入是特征

x1,x2,x3x1,x2,x3 $x_1,x_2,x_3$ ，输出是假设函数的结果
在神经网络中，仍采用同样的逻辑函数

hθ(x)=11+e−θTxhθ(x)=11+e−θTx $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
在神经网络中，也称逻辑函数为激励函数，

θθ $\theta$ 参数为权重。
这里写图片描述

x0x0 $x_0$ 为偏置单元，它的值总是等于1
上图中，输入节点Layer1称为输入层，输出假设函数结果的Layer3称为输出层，介于输入层与输出层之间的称为隐藏层。
位于隐藏层的节点(或神经元)称为激励单元。

⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to h θ (x)

$\begin{bmatrix}x_0 \newline x_1 \newline x_2 \newline x_3\end{bmatrix}\rightarrow\begin{bmatrix}a_1^{(2)} \newline a_2^{(2)} \newline a_3^{(2)} \newline \end{bmatrix}\rightarrow h_\theta(x)$

a (j) i = "activation" of unit i in layer j Θ (j) = matrix of weights controlling function mapping from layer j to layer j + 1

$\begin{align*}& a_i^{(j)} = \text{"activation" of unit $i$ in layer $j$} \newline& \Theta^{(j)} = \text{matrix of weights controlling function mapping from layer $j$ to layer $j+1$}\end{align*}$

a (2) 1 a (2) 2 a (2) 3 h Θ (x) = a (3) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$\begin{align*} a_1^{(2)} &= g(\Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3) \newline a_2^{(2)} &= g(\Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3) \newline a_3^{(2)} &= g(\Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3) \newline h_\Theta(x) = a_1^{(3)} &= g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{(2)} + \Theta_{12}^{(2)}a_2^{(2)} + \Theta_{13}^{(2)}a_3^{(2)}) \newline \end{align*}$
假设在Layer j有

sjsj $s_j$ 个单元，Layer j+1有

sj+1sj+1 $s_{j+1}$ 个单元，那么

Θ(j)Θ(j) $\Theta^{(j)}$ 表示从第j层到第j+1层的权重矩阵，是一个

sj+1×(sj+1)sj+1×(sj+1) $s_{j+1} \times (s_j+1)$ 的矩阵

向量化计算
令

z (2) 1 z (2) 2 z (2) 3 = Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3 = Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3 = Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3

$\begin{align*} z_1^{(2)} &= \Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3 \newline z_2^{(2)} &= \Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3 \newline z_3^{(2)} &= \Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3 \end{align*}$
即, 这里写图片描述

,得到如下表示

a (2) 1 = g (z (2) 1) a (2) 2 = g (z (2) 2) a (2) 3 = g (z (2) 3)

$\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newline a_3^{(2)} = g(z_3^{(2)}) \newline \end{align*}$

xx $x$ 与

z_{j}

$z_j$ 的向量形式为

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥, z (j) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ z (j) 1 z (j) 2 \dots z (j) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{align*}x = \begin{bmatrix}x_0 \newline x_1 \newline\cdots \newline x_n\end{bmatrix} , &z^{(j)} = \begin{bmatrix}z_1^{(j)} \newline z_2^{(j)} \newline\cdots \newline z_n^{(j)}\end{bmatrix}\end{align*}$
令

x=a(1)x=a(1) $x=a^{(1)}$ ,可以写出向量表示的等式

zj=Θ(j−1)a(j−1)zj=Θ(j−1)a(j−1) $z^{j}=\Theta^{(j-1)}a^{(j-1)}$ ,

Θ(j−1)Θ(j−1) $\Theta^{(j-1)}$ 是

sj×(n+1)sj×(n+1) $s_j\times (n+1)$ 的矩阵，

a(j−1)a(j−1) $a^{(j-1)}$ 是

(n+1)×1(n+1)×1 $(n+1)\times1$ 的矩阵，得出

zjzj $z^{j}$ 是

sj×1sj×1 $s_j\times1$ 的矩阵，

a(j)=g(z(j))a(j)=g(z(j)) $a^{(j)}=g(z^{(j)})$ 把函数g作用到

z(j)z(j) $z^{(j)}$ 的每一个元素上。
在计算了

a(j)a(j) $a^{(j)}$ 后，增加偏置单元

a(j)0=1a0(j)=1 $a_0^{(j)}=1$ ，得到

zj+1=Θ(j)a(j)zj+1=Θ(j)a(j) $z^{j+1}=\Theta^{(j)}a^{(j)}$ ，进一步计算出最终结果

h Θ (x) = a (j + 1) = g (z (j + 1))

$h_\Theta(x)=a^{(j+1)}=g(z^{(j+1)})$

Example XNOR

A N D : Θ (1) N O R : Θ (1) O R : Θ (1) = [- 30 2020] = [10 - 20 - 20] = [- 10 2020]

$\begin{align*}AND:\newline\Theta^{(1)} &=\begin{bmatrix}-30 & 20 & 20\end{bmatrix} \newline NOR:\newline\Theta^{(1)} &= \begin{bmatrix}10 & -20 & -20\end{bmatrix} \newline OR:\newline\Theta^{(1)} &= \begin{bmatrix}-10 & 20 & 20\end{bmatrix} \newline\end{align*}$
同或XNOR可以通过与AND、异或NOR、或OR组合得到，在神经网络Layer2计算AND和NOR，再通过Layer3输出层计算OR最终得到XNOR的输出。

⎡ ⎣ ⎢ x 0 x 1 x 2 ⎤ ⎦ ⎥ \to [a (2) 1 a (2) 2] \to [a (3)] \to h Θ (x)

$\begin{align*}\begin{bmatrix}x_0 \newline x_1 \newline x_2\end{bmatrix} \rightarrow\begin{bmatrix}a_1^{(2)} \newline a_2^{(2)} \end{bmatrix} \rightarrow\begin{bmatrix}a^{(3)}\end{bmatrix} \rightarrow h_\Theta(x)\end{align*}$
这里写图片描述