
论文阅读
文章平均质量分 96
敲敲敲代码_
这个作者很懒,什么都没留下…
展开
-
LEARNING TO GROW PRETRAINED MODELS FOR EFFICIENT TRANSFORMER TRAINING
通过学习 增长预训练(grow pretrained)的transformers 来加速transformer的训练过程,通过学习通过线性映射用较小的模型参数初始化较大的模型。且将线性变换分解为线性宽度和线性深度增长算子的组合,并用克罗内科(Kronecker)分解来编码架构知识。原创 2023-08-11 22:41:51 · 189 阅读 · 0 评论 -
AI系统论文阅读:SmartMoE
MoE模型将传统训练模型中的layer换成了多个expert sub-networks,对每个输入,都有一层special gating network 来将其分配到最适合它的expert中,然后被expert处理。当前工作并没有充分利用MoE模型的不同expert工作负载的差异,并且甚至假设子网络上的工作负载是相同的,从而排除了很多优化空间。提出稀疏架构是为了打破具有密集架构的DNN模型中模型大小和计算成本之间的连贯关系的——最著名的MoE。(稀疏激活模型的自动并行化训练系统)。原创 2023-09-06 10:53:53 · 704 阅读 · 1 评论