LLM加速相关
Transformer-block基本参数计算假设,隐层维度为h,SA就有四个h * h的权重和对应的偏置:4h² + 4hMLP:两层,h * 4h,偏置4h 和 4h * h ,偏置h: 8h² + 5hLN: 一个α一个β,应该是2h,上图可能有错所以每个block就是 12h² + 11h(图中为13h)假设有L层,那么total参数量:L*(12h² + 11h),当h够大时,12h² >> 11h所以总参数量可估算为L * 12h²根据该公式,可估算Llama的参数量。
原创
2024-05-21 02:09:43 ·
881 阅读 ·
0 评论