菜鸡笔记,不喜莫喷
现在有一个完整的Transformer模型,但是我只想分析它Layer Normalization的参数;其他10810^8108左右的参数我不想看,看到就头大。已知这部分参数的名字大概有如下的pattern
layer_prepostprocess/layer_norm/layer_norm_scale
和
layer_prepostprocess/layer_norm/layer_norm_bias
import
菜鸡笔记,不喜莫喷
现在有一个完整的Transformer模型,但是我只想分析它Layer Normalization的参数;其他10810^8108左右的参数我不想看,看到就头大。已知这部分参数的名字大概有如下的pattern
layer_prepostprocess/layer_norm/layer_norm_scale
和
layer_prepostprocess/layer_norm/layer_norm_bias
import