ViT-B: layers=12,hidden_size=768,MLP_size=3072,heads=12,params=86M,image_size=384+1
参考:https://blog.youkuaiyun.com/weixin_43922901/article/details/102602557
1 Patch embedding

patch_dim = 16163, dim = hidden_size = 768
所以参数量为768*768
2 Transformer block(attention+FFN)
attention: 这一部分的参数主要来源于x->q,k,v所要进行的linear变换,即wqw_qw
ViT-B模型参数详细计算

本文详细介绍了ViT-B模型的参数量计算,包括Patch embedding的768*768参数,Transformer block中注意力机制和FFN的参数,以及Layernorm的gamma和beta参数。总计约86M参数。
最低0.47元/天 解锁文章
2780

被折叠的 条评论
为什么被折叠?



