
#cs231n
Djoli
这个作者很懒,什么都没留下…
展开
-
17 7.2正则化
常用:L2, L1, Elastic net(L1 + L2) 还有:Dropout dropout为什么有效?一种认识是:避免了特征之间的适应;另一种认识是:dropout训练了一个models的ensemble。 drop in forward pass, and scale at test time! = > inverted dropout只是将一个平均的除法放在train的...原创 2019-11-09 12:59:19 · 187 阅读 · 0 评论 -
cs231n lecture 16 7.1笔记--更好的优化
last time: activation function:sigmoid, tanh, relu, leacky relu, maxout, ELU weight initialization:Xavier初始化,MSRA初始化。初始化过小无法学习,过大梯度消失。 data preprocessing:中心化,归一化。好处是让loss对参数值中的小扰动不那么敏感。 batch norm...原创 2019-11-09 12:22:13 · 315 阅读 · 0 评论