以6464的3通道图片为例,它的特征一共有364*64=12288个.
在神经网络中我们把每一个样本作为一列(通常情况下我们是作为一行),这样处理有助于以后的理解.
而对应的标签y则是一样的布局.
接下来的两张图片是介绍深度学习里的符号约定.
字母的上标(i)(i)(i)代表了ithi^{th}ith第i个样本,同样的道理[l][l][l]将代表lthl^{th}lth第lll个层
mmm 数据集中样本的数量
nxn_xnx 输入的特征尺寸
nyn_yny 输出的标签尺寸
nh[y]n_h^{[y]}nh[y] 在lll层,隐藏单元的数量
LLL 神经网络中的层数
X∈Rnx∗mX \in R^{n_x*m}X∈Rnx∗m 输入的矩阵
x(i)∈Rnxx^{(i)} \in R^{n_x}x(i)∈Rnx 代表了第iii个样本(或者第iii列)
Y∈Rny∗mY \in R^{n_y*m}Y∈Rny∗m 输出的矩阵
y(i)∈Rnyy^{(i)} \in R^{n_y}y(i)∈Rny 第iii个输出标签(或者第iii列)
W[l]∈R后一层的神经元∗前一层的神经元W^{[l]} \in R^{后一层的神经元*前一层的神经元}W[l]∈R后一层的神经元∗前一层的神经元 第lll层的系数矩阵
b[l]∈R下一层神经元的数量b^{[l]} \in R^{下一层神经元的数量}b[l]∈R下一层神经元的数量 第lll层的偏置(bias)矩阵
y^∈Rny\hat{y} \in R^{n_y}y^∈Rny 预测的输出向量,它也可以是a[l]a^{[l]}a[l],lll是神经网络中的层.
a=g[l](Wxx(i)+b1)=g[l](z1)a = g{[l]}(W_xx^{(i)}+b_1)=g{[l]}(z_1)a=g[l](Wxx(i)+b1)=g[l](z1) 代表了第lll层的激活函数
y^(i)=softmax(Whh+b2)\hat{y}^{(i)} = softmax(W_hh+b_2)y^(i)=softmax(Whh+b2)
aj[l]=g[l](∑kwjk[l]ak[l−1]+bj[l])=g[l](zj[l])a_j^{[l]}=g^{[l]}(\sum_kw^{[l]}_{jk}a_k^{[l-1]}+b_j^{[l]})=g^{[l]}(z_j^{[l]})aj[l]=g[l](∑kwjk[l]ak[l−1]+bj[l])=g[l](zj[l])
J(x,W,b,y)J(x,W,b,y)J(x,W,b,y) or J(y^,y)J(\hat{y},y)J(y^,y) 是损失函数