LLM 参数,显存,Tflops? 训练篇(2)

本文深入探讨Transformer模型中的FFN层,分析其计算过程和算力消耗,包括第一层升维和第二层降维的点积运算,以及与注意力层算力的综合。此外,还提到了在NLG任务中softmax层的算力需求,并预告了后续关于显存、中间计算结果和推理算力的内容。

第一篇链接:LLM 参数,显存,Tflops? 训练篇(1) (qq.com)

      第一篇我们讲完了Self-Attention层的算力要求和每一步生成的形状,

图片

      上节课我们讲的红框里的内容,我们继续从下往上看, 两个LN层就别看了也没啥特别多的可学习对象(跟MHA和FFN相比),其实还有什么drop out啥的,因为这玩意都没可学习的参数,所以都忽略,所以我们就看FFN层需要消耗多少算力

      我们之前讲过FFN是干啥的,需要了解的读者请看这个系列:

小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(1) (qq.com)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值