
大模型
文章平均质量分 79
Briwisdom
这个作者很懒,什么都没留下…
展开
-
大模型常见算子定义
本文将汇总大模型常用的算子定义,方便快速根据定义公式评估其计算量。原创 2024-10-13 23:15:29 · 1568 阅读 · 0 评论 -
大模型基架:Transformer如何做优化?
大模型的基础模式是transformer,所以很多芯片都实现先专门的transformer引擎来加速模型训练或者推理。本文将拆解Transformer的算子组成,展开具体的数据流分析,结合不同的芯片架构实现,分析如何做性能优化。原创 2024-06-06 07:30:00 · 1431 阅读 · 0 评论 -
图解大模型分布式并行各种通信原语
本文将通过图解的方式,帮助快速区分并理解不同的通信原语所代表的含义。包括:broadcast, scatter, gather, all-gather, reduce, all-reduce, reduce-scatter, all-all原创 2024-06-02 22:12:42 · 1135 阅读 · 0 评论