知乎:孟繁续(已授权)
链接:https://zhuanlan.zhihu.com/p/23355620415
Deepseek使用更低的成本追赶OpenAI的效果
关注Deepseek也有一年多了,当时Mixtral-8x7B模型刚出来,我写了一篇分析其MoE架构的文章。Deepseek不久后推出了他们第一版Deepseek MoE模型,他们的工作人员看到文章加了我的微信;
Mixtral-8x7B 模型挖坑:
https://zhuanlan.zhihu.com/p/674751021
在做Paiss的时候,我就将Deepseek MoE视为主流模型进行了实验对比;
在Deepseek V2出来后,MLA架构巧妙地设计吸引了我。启发我做出CLOVER这篇文章。MLA中存在一个absorb操作,能将Key Weight吸收到Query Weight中,Value Weight吸收到Output Weight中,缺点是合并后参数量会变大。CLOVER先合并再分解,不改变模型结构就能得到正交的注意力头,对剪枝和微调都有很大的好处;