Some of the content for this lecture is borrowed from Hugo Larochelle
神经网络相对于训练集:太小(欠拟合),找到的规律模型未能够很好的捕捉数据特征,不能很好的拟合数据;太大(过拟合),记住的规律太多,太具体死板地记住训练集,不够抽象。
单个神经元的作用:把一个n纬的向量空间用一个超平面分成两部分(称之为判断边界),给定一个输入向量,神经元能判断出这个向量位于超平面的哪一边。b+wTx=0 就是超平面方程。
x1,x2,x3.....是输入特征向量的各个分量
w1,w2,w3....是各神经元各突触的权值
b:神经元偏置

二维可视化激活函数表示图,W向量决定两类情况范围区别的基本方向,b变大,超平面会向相反的方向移动。
图中红色虚线就是超平面,w方向和超平面垂直
Sigmoid 激活函数,特点:可以将输出压缩到0-1的范围;总是正数;有界;严格递增
缺点:会出现梯度消失,这个函数的导数是g(a)(1-g(a)),最大值是1/4,所以每一层向前传递都会至少3/4的梯度损失。
激活函数的意义:
如果不加激活函数,无论多少的层隐层,最终的结果还是原始输入的线性变化,这样一层隐层就能达到效果,就没有多层感知器的意义了,所以每个隐层都配有激活函数,提供非线性的变化。
ReLU激活函数,修正线性激活函数
特点:非负;将神经元变得稀疏;没上界;严格递增
优点:可以防止梯度消失,其导数是1
前馈神经网络,是指链接图无闭环或者回路。单隐层神经网络,只有一个隐藏层。
偏置单元无输入,w(1) 3*3 , w(2) 1*3 , S(l) 表示第l层节点个数,不包括偏置单元。
w(1)i,j 表示第一层的 j 单元和第二层的 i 单元链接权重
这个例子可以解释XOR抑或门
前向传播的例子
扩展到多个隐藏层
通用近似定理:单隐层神经网络如果有线性输出层,可以以任何精度逼近任何连续函数,只要隐层神经元的个数足够多。
神经网络调参的形象比喻,磨合就是不断找到更好的参数值
theta 是所有参数的集合
关于训练样本集的平均损失。