工具包: scikit-neuralNetwork
数据集:mnist
计算框架:gredient descent + back propagation
- 梯度下降用于将目标函数(最理想为凸函数)最快速的下降到最低代价,但要考虑更新步长影响收敛到局部最优
- 反向传播将更新每个节点的error的计算从每次都遍历整个网络变为一次遍历
目标代价函数:
- 二次型
- crossEntropy (能将学习启动时保持高学习速度)
激活函数:
- sigmod
- softmax (概率化表达输出层的节点值)
- tanh(双曲正切)
泛化:防止overfitting,保持在trainning data上cost降低的同时accuracy提高
L1 / L2(代价函数增加w项以同时降低节点上w) / dropout
初始化w,b:正态分布生成w,b时,方差减小,提高学习速率
进阶:
限制玻尔兹曼机,玻尔兹曼机,深度置信网络,autoencoder,递归神经网络(RNN),hopfield......
参考: