cs231n lecture 16 7.1笔记--更好的优化
last time:
activation function:sigmoid, tanh, relu, leacky relu, maxout, ELU
weight initialization:Xavier初始化,MSRA初始化。初始化过小无法学习,过大梯度消失。
data preprocessing:中心化,归一化。好处是让loss对参数值中的小扰动不那么敏感。
batch norm...
原创
2019-11-09 12:22:13 ·
315 阅读 ·
0 评论