- 博客(2)
- 收藏
- 关注
原创 学习日记—Normalizaion作用以及种类
但对于RNN来说,sequence的长度是不一致的,换句话说RNN的深度不是固定的,不同的time-step需要保存不同的statics特征,可能存在一个特殊sequence比其他sequence长很多,这样training时,计算很麻烦。a. 对批次大小不敏感,与BN和LN不同,GN将特征分成若干组,对每组特征进行归一化处理,因此不需要依赖于批次大小,可以适用于小批次训练和大规模并行训练。d. 计算速度更快,与BN相比,GN的计算速度更快,因为对于每个特征,只需要计算其所在组的均值和方差。
2023-03-23 17:58:28
260
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅